|
| 1 | +# 信息抽取应用 |
| 2 | + |
| 3 | +**目录** |
| 4 | +- [1. 信息抽取应用简介](#1) |
| 5 | +- [2. 技术特色](#2) |
| 6 | + - [2.1 信息抽取方案全覆盖](#21) |
| 7 | + - [2.2 强大的训练基座](#22) |
| 8 | + - [2.3 产业级全流程方案](#23) |
| 9 | + - [2.4 效果展示](#24) |
| 10 | +- [3. 快速开始](#快速开始) |
| 11 | + - [3.1 Taskflow开箱即用](#31) |
| 12 | + - [3.2 文本信息抽取](#32) |
| 13 | + - [3.3 文档信息抽取](#33) |
| 14 | + |
| 15 | +<a name="1"></a> |
| 16 | + |
| 17 | +## 1. 信息抽取应用简介 |
| 18 | + |
| 19 | +信息抽取应用针对信息抽取一系列高频场景开源了产业级解决方案,**具备多领域、多任务、跨模态的能力**,打通**数据标注-模型训练-模型调优-预测部署全流程**,可快速实现信息抽取产品落地。 |
| 20 | + |
| 21 | +信息抽取通俗地说就是从给定的文本/图片等输入数据中抽取出结构化信息的过程。在信息抽取的落地过程中通常面临领域多变、任务多样、数据稀缺等许多挑战。针对信息抽取领域的难点和痛点,PaddleNLP信息抽取应用**基于UIE统一建模的思想**,提供了信息抽取产业级应用方案,**除支持纯文本场景实体、关系、事件、观点等不同任务抽取外,还支持文档/图片/表格的端到端信息抽取**。该应用**不限定行业领域和抽取目标**,可实现从产品原型研发、业务POC阶段到业务落地、迭代阶段的无缝衔接,助力开发者实现特定领域抽取场景的快速适配与落地。 |
| 22 | + |
| 23 | +**信息抽取应用亮点:** |
| 24 | + |
| 25 | +- **覆盖场景全面🎓:** 覆盖信息抽取各类主流任务,面向纯文本和文档场景,支持多语言,满足开发者多样信息抽取落地需求。 |
| 26 | +- **效果领先🏃:** 以在纯文本、多模态上均有突出效果的UIE系列模型作为训练基座,提供多种尺寸的预训练模型满足不同需求,具有广泛成熟的实践应用性。 |
| 27 | +- **简单易用⚡:** 通过Taskflow实现三行代码可实现无标注数据的情况下进行快速调用,一行命令即可开启信息抽取训练,轻松完成部署上线,降低信息抽取技术落地门槛。 |
| 28 | +- **高效调优✊:** 开发者无需机器学习背景知识,即可轻松上手数据标注及模型训练流程。 |
| 29 | + |
| 30 | +<a name="2"></a> |
| 31 | + |
| 32 | +## 2. 技术特色 |
| 33 | + |
| 34 | +<a name="21"></a> |
| 35 | + |
| 36 | +### 2.1 信息抽取方案全覆盖 |
| 37 | + |
| 38 | +多模型选择,满足精度、速度,适配不同信息抽取使用场景。 |
| 39 | + |
| 40 | +| 模型名称 | 使用场景 | 支持任务 | |
| 41 | +| :----------------------------------------------------------: | :--------------------------------------------------------- | :--------------------------------------------------- | |
| 42 | +| `uie-base`<br />`uie-medium`<br />`uie-mini`<br />`uie-micro`<br />`uie-nano` | 面向**纯文本**场景的**抽取式**模型,支持**中文** | 具备实体、关系、事件、评论观点等通用信息抽取能力 | |
| 43 | +| `uie-base-en` | 面向**纯文本**场景的**抽取式**模型,支持**英文** | 具备实体、关系、事件、评论观点等通用信息抽取能力 | |
| 44 | +| `uie-m-base`<br />`uie-m-large` | 面向**纯文本**场景的**抽取式**模型,支持**中英** | 具备实体、关系、事件、评论观点等通用信息抽取能力 | |
| 45 | +| <b>`uie-x-base`</b> | 面向**纯文本**和**文档**场景的**抽取式**模型,支持**中英** | 支持纯文本场景的全部功能,还支持文档/图片/表格的端到端信息抽取 | |
| 46 | + |
| 47 | +<a name="22"></a> |
| 48 | + |
| 49 | +### 2.2 强大的训练基座 |
| 50 | + |
| 51 | +信息抽取应用使用ERNIE 3.0轻量级模型作为预训练模型,同时在大量信息抽取数据上进行了二次预训练,从而让模型适配固定prompt。 |
| 52 | + |
| 53 | +- 中文文本数据集实验结果 |
| 54 | + |
| 55 | +我们在互联网、医疗、金融三大垂类文本自建测试集上进行了实验: |
| 56 | + |
| 57 | +<table> |
| 58 | +<tr><th row_span='2'><th colspan='2'>金融<th colspan='2'>医疗<th colspan='2'>互联网 |
| 59 | +<tr><td><th>0-shot<th>5-shot<th>0-shot<th>5-shot<th>0-shot<th>5-shot |
| 60 | +<tr><td>uie-base (12L768H)<td>46.43<td>70.92<td><b>71.83</b><td>85.72<td>78.33<td>81.86 |
| 61 | +<tr><td>uie-medium (6L768H)<td>41.11<td>64.53<td>65.40<td>75.72<td>78.32<td>79.68 |
| 62 | +<tr><td>uie-mini (6L384H)<td>37.04<td>64.65<td>60.50<td>78.36<td>72.09<td>76.38 |
| 63 | +<tr><td>uie-micro (4L384H)<td>37.53<td>62.11<td>57.04<td>75.92<td>66.00<td>70.22 |
| 64 | +<tr><td>uie-nano (4L312H)<td>38.94<td>66.83<td>48.29<td>76.74<td>62.86<td>72.35 |
| 65 | +<tr><td>uie-m-large (24L1024H)<td><b>49.35</b><td><b>74.55</b><td>70.50<td><b>92.66</b><td>78.49<td><b>83.02</b> |
| 66 | +<tr><td>uie-m-base (12L768H)<td>38.46<td>74.31<td>63.37<td>87.32<td>76.27<td>80.13 |
| 67 | +<tr><td>🧾 🎓<b>uie-x-base (12L768H)</b><td>48.84<td>73.87<td>65.60<td>88.81<td><b>79.36</b><td>81.65 |
| 68 | +</table> |
| 69 | + |
| 70 | +0-shot表示无训练数据直接通过```paddlenlp.Taskflow```进行预测,5-shot表示每个类别包含5条标注数据进行模型微调。**实验表明UIE在垂类场景可以通过少量数据(few-shot)进一步提升效果**。 |
| 71 | + |
| 72 | + |
| 73 | +<a name="23"></a> |
| 74 | + |
| 75 | +### 2.3 产业级全流程方案 |
| 76 | + |
| 77 | +**调研阶段** |
| 78 | + |
| 79 | +- 该阶段目标需求开放且缺少数据积累。我们提供Taskflow三行代码极简调用的方式,无需标注数据即可在业务场景上快速验证效果。 |
| 80 | + - [文本抽取 Taskflow使用指南](./taskflow_text.md) |
| 81 | + - [文档抽取 Taskflow使用指南](./taskflow_doc.md) |
| 82 | + |
| 83 | +**数据准备阶段** |
| 84 | + |
| 85 | +- 我们推荐在实际的业务场景中定制自己的信息抽取模型。我们提供了不同抽取场景的Label Studio标注解决方案,可基于该方案实现从数据标注到训练数据构造的无缝衔接,大大降低了数据标注、模型定制的时间成本。 |
| 86 | + - [文本抽取标注指南](./label_studio_text.md) |
| 87 | + - [文档抽取标注指南](./label_studio_doc.md)。 |
| 88 | + |
| 89 | +**模型微调及封闭域蒸馏** |
| 90 | + |
| 91 | +- 基于UIE优秀的小样本微调能力,实现低成本模型定制适配。同时提供封闭域蒸馏的加速方案,解决抽取速度慢的问题。 |
| 92 | + - [文本信息抽取全流程示例](./text/README.md) |
| 93 | + - [文档信息抽取全流程示例](./document/README.md) |
| 94 | + |
| 95 | +**模型部署** |
| 96 | + |
| 97 | +- 提供HTTP部署方案,快速实现定制模型的部署上线。 |
| 98 | + - [文本抽取HTTP部署指南](./text/deploy/simple_serving/README.md) |
| 99 | + - [文档抽取HTTP部署指南](./document/deploy/simple_serving/README.md) |
| 100 | + |
| 101 | +<a name="24"></a> |
| 102 | + |
| 103 | +### 2.4 效果展示 |
| 104 | + |
| 105 | +- UIE-X端到端文档抽取 |
| 106 | + |
| 107 | + - 报关单 |
| 108 | + |
| 109 | + <div align="center"> |
| 110 | + <img src=https://user-images.githubusercontent.com/40840292/205879840-239ada90-1692-40e4-a17f-c5e963fdd204.png height=800 width=500 /> |
| 111 | + </div> |
| 112 | + |
| 113 | + - Delivery Note(需微调) |
| 114 | + |
| 115 | + <div align="center"> |
| 116 | + <img src=https://user-images.githubusercontent.com/40840292/205922422-f2615050-83cb-4bf5-8887-461f5633e85c.png height=250 width=700 /> |
| 117 | + </div> |
| 118 | + |
| 119 | + - 增值税发票(需微调) |
| 120 | + |
| 121 | + <div align="center"> |
| 122 | + <img src=https://user-images.githubusercontent.com/40840292/206084942-44ba477c-9244-4ce2-bbb5-ba430c9b926e.png height=550 width=700 /> |
| 123 | + </div> |
| 124 | + |
| 125 | + - 表单(需微调) |
| 126 | + |
| 127 | + <div align="center"> |
| 128 | + <img src=https://user-images.githubusercontent.com/40840292/206080645-2f07d560-b949-4248-a51f-1735692cb241.png height=400 width=700 /> |
| 129 | + </div> |
| 130 | + |
| 131 | +<a name="3"></a> |
| 132 | + |
| 133 | +## 3. 快速开始 |
| 134 | + |
| 135 | +<a name="31"></a> |
| 136 | + |
| 137 | +### 3.1 Taskflow开箱即用 |
| 138 | + |
| 139 | +- 通过Taskflow实现开箱即用 |
| 140 | + 👉 [文本抽取 Taskflow使用指南](./taskflow_text.md) |
| 141 | + 👉 [文档抽取 Taskflow使用指南](./taskflow_doc.md) |
| 142 | + |
| 143 | +<a name="32"></a> |
| 144 | + |
| 145 | +### 3.2 文本信息抽取 |
| 146 | + |
| 147 | +- 快速开启文本信息抽取 👉 [文本信息抽取指南](./text/README.md) |
| 148 | + |
| 149 | +<a name="33"></a> |
| 150 | + |
| 151 | +### 3.3 文档信息抽取 |
| 152 | + |
| 153 | +- 快速开启文档信息抽取 👉 [文档信息抽取指南](./document/README.md) |
0 commit comments