Skip to content

Files

Latest commit

505b77e · Mar 24, 2023

History

History
This branch is 2133 commits behind PaddlePaddle/PaddleNLP:develop.

information_extraction

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
Mar 24, 2023
Feb 22, 2023
Dec 28, 2022
Dec 28, 2022
Feb 15, 2023
Mar 3, 2023
Mar 3, 2023
Jan 16, 2023
Jan 16, 2023
Feb 22, 2023
Feb 22, 2023
Feb 22, 2023
Feb 22, 2023

简体中文 | English

信息抽取应用

目录

1. 信息抽取应用简介

信息抽取应用针对信息抽取一系列高频场景开源了产业级解决方案,具备多领域、多任务、跨模态的能力,打通数据标注-模型训练-模型调优-预测部署全流程,可快速实现信息抽取产品落地。

信息抽取通俗地说就是从给定的文本/图片等输入数据中抽取出结构化信息的过程。在信息抽取的落地过程中通常面临领域多变、任务多样、数据稀缺等许多挑战。针对信息抽取领域的难点和痛点,PaddleNLP信息抽取应用基于UIE统一建模的思想,提供了信息抽取产业级应用方案,除支持纯文本场景实体、关系、事件、观点等不同任务抽取外,还支持文档/图片/表格的端到端信息抽取。该应用不限定行业领域和抽取目标,可实现从产品原型研发、业务POC阶段到业务落地、迭代阶段的无缝衔接,助力开发者实现特定领域抽取场景的快速适配与落地。

信息抽取应用亮点:

  • 覆盖场景全面🎓: 覆盖信息抽取各类主流任务,面向纯文本和文档场景,支持多语言,满足开发者多样信息抽取落地需求。
  • 效果领先🏃: 以在纯文本、多模态上均有突出效果的UIE系列模型作为训练基座,提供多种尺寸的预训练模型满足不同需求,具有广泛成熟的实践应用性。
  • 简单易用⚡: 通过Taskflow实现三行代码可实现无标注数据的情况下进行快速调用,一行命令即可开启信息抽取训练,轻松完成部署上线,降低信息抽取技术落地门槛。
  • 高效调优✊: 开发者无需机器学习背景知识,即可轻松上手数据标注及模型训练流程。

2. 技术特色

2.1 信息抽取方案全覆盖

多模型选择,满足精度、速度,适配不同信息抽取使用场景。

模型名称 使用场景 支持任务
uie-base
uie-medium
uie-mini
uie-micro
uie-nano
面向纯文本场景的抽取式模型,支持中文 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-base-en 面向纯文本场景的抽取式模型,支持英文 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-m-base
uie-m-large
面向纯文本场景的抽取式模型,支持中英 具备实体、关系、事件、评论观点等通用信息抽取能力
uie-x-base 面向纯文本文档场景的抽取式模型,支持中英 支持纯文本场景的全部功能,还支持文档/图片/表格的端到端信息抽取

2.2 强大的训练基座

信息抽取应用使用ERNIE 3.0轻量级模型作为预训练模型,同时在大量信息抽取数据上进行了二次预训练,从而让模型适配固定prompt。

  • 中文文本数据集实验效果

我们在互联网、医疗、金融三大垂类文本自建测试集上进行了实验:

金融医疗互联网
0-shot5-shot0-shot5-shot0-shot5-shot
uie-base (12L768H)46.4370.9271.8385.7278.3381.86
uie-medium (6L768H)41.1164.5365.4075.7278.3279.68
uie-mini (6L384H)37.0464.6560.5078.3672.0976.38
uie-micro (4L384H)37.5362.1157.0475.9266.0070.22
uie-nano (4L312H)38.9466.8348.2976.7462.8672.35
uie-m-large (24L1024H)49.3574.5570.5092.6678.4983.02
uie-m-base (12L768H)38.4674.3163.3787.3276.2780.13
🧾 🎓uie-x-base (12L768H)48.8473.8765.6088.8179.3681.65

0-shot表示无训练数据直接通过paddlenlp.Taskflow进行预测,5-shot表示每个类别包含5条标注数据进行模型微调。实验表明UIE在垂类场景可以通过少量数据(few-shot)进一步提升效果

  • 多模态数据集实验效果

我们在通用、金融、医疗三大场景自建多模态测试集上对UIE-X的零样本效果进行了实验:

通用金融医疗
🧾 🎓uie-x-base (12L768H)65.0373.5184.24

通用测试集包含了不同领域的复杂样本,抽取难度最大。

2.3 产业级全流程方案

调研阶段

数据准备阶段

  • 我们推荐在实际的业务场景中定制自己的信息抽取模型。我们提供了不同抽取场景的Label Studio标注解决方案,可基于该方案实现从数据标注到训练数据构造的无缝衔接,大大降低了数据标注、模型定制的时间成本。

模型微调及封闭域蒸馏

模型部署

2.4 效果展示

  • UIE-X端到端文档抽取产业应用示例

    • 报关单

    • Delivery Note(需微调)

    • 增值税发票(需微调)

    • 表单(需微调)

3. 快速开始

3.1 Taskflow开箱即用

3.2 文本信息抽取

3.3 文档信息抽取