知识图谱_3命名实体识别
2024-05-19 17:20:53 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“实体抽取”部分,分别从模型架构、学习算法以及模态融合三个层面介绍实体抽取(即命名实体识别)领域的研究现状与发展趋势。
作者其他创作
大纲/内容
一
任务定义
、目标和研究意义
实体
概念
是世界构成的基本单元
文本中的实体
是承载着文本信息的重要基本单位
一段文本中所蕴含的信息
通常可以被表述为
其所包含的实体
以及 实体间的相互联系
而一个知识图谱通常是一个
以实体为节点的巨大知识网络
包括
① 实体 ② 实体属性 ③ 实体之间的关系
因此
上述文本中所蕴含的
实体及实体间关联信息
是知识图谱中知识的最重要来源
实体抽取
主要目标
是识别文本当中的实体提及
并将其划分到指定的给定类别
常用实体类别
包括:人名、地名、机构名、日期 等
概述
是海量文本分析和知识图谱构建的核心技术
也是文本语义理解的基础
为解决信息过载提供了有效手段
分支主题
互联网海量的文本数据中
蕴含大量有价值的信息
针对性地挖掘
并剔除无关与冗余的信息
可以帮助人类高效获取信息
通过以实体为核心建立
海量信息的表示、关联和结构
实体抽取
可以
为互联网信息的挖掘提供高效手段
为用户信息需求的精准满足提供基础支撑
实体抽取技术
概述
通过将文本结构化为以实体为中心的语义表示
为分析非结构化文本提供了核心技术手段
是实现大数据资源化、知识化和普适化的核心技术
应用
已被广泛应用于:舆情监控、网络搜索、智能问答等多个重要领域
二
研究内容与挑战
研究内容
实体抽取的主要研究对象
如何从文本中识别指定类别的实体
一个实体抽取系统通常
包含两个部分
① 实体边界识别
判断一个字符串是否组成一个完整实体
② 实体分类
将识别出的实体划分到预先给定的不同类别中去
实体抽取
是一项自然语言处理的基础技术
目前
中英文上通用的特定领域(人名、地名、机构名)
实体抽取性能 F1 值都能达到 90% 以上
然而
如何能够将限定领域上的优良表现迁移至开放领域
从而在众多不同的领域与类别上均实现较好的性能
核心挑战
类别开放
限定领域实体抽取
通常只关注于
非常稀少的特定实体类别
然而
开放域实体抽取
需要处理为数众多、粒度不一的各种实体类别
为满足各领域的实体识别需求
命名实体的类别范围不断扩大
示例
语言数据协会
根据《华尔街日报》的文章
构建了包括了 64 个实体类别的 BBN 数据集
随后又构建了
包括 87 个实体类别的 OntoNotes 数据集
Ling 等人
从 Freebase 中选取了 112 个实体类别作为识别目标
并构建了一个细粒度实体抽取数据集
Choi 等
提出的极细粒度
实体抽取
利用 WordNet 将实体扩充到了
10331 个粒度不一的开放类别
示例
针对计算机科学领域
Jain 等
提出了 SciREX 数据集,
其中涵盖数据集、评价指标、
任务和方法等四大类实体
针对生物领域
Li 等人
根据 PubMed 的文章构造了 BC5CDR 数据集,
重点关注疾病和化学药物实体
分析
众多的开放类别
不仅数量不固定、粒度参差不齐
类别之间还具有上下位和共现关系等复杂关联
因此
传统的限定域实体抽取中
孤立地考虑每个实体类别的方法
是低效且不切实际的
实体结构复杂
传统的限定领域实体抽取
通常关注于
平实体抽取 (Flat NER)
不考虑
实体提及中存在的
嵌套、重叠以及不连续的情况
然而
对于开放领域的实体抽取而言
实体提及间存在复杂结构
是非常常见的现象
如
“中华人民共和国教育部”中
包含有:“中华人民共和国教育部”和
“中华人民共和国”两个不同的实体提及
而“心、肺功能异常”中
则包含着:“心功能异常”与
“肺功能异常”两个不同的症状实体
分析
这类复杂结构
在开放领域的实体抽取问题中分布非常广泛
而
以 CRF 为代表的传统的
实体抽取模型表达能力不足
很难建模上述复杂结构
标注资源缺乏
由于
类别开放以及实体结构复杂的特点
我们很难
为所有待抽取的实体类别
构建足够数量的标注资源
因此
在开放实体抽取中
有大量的实体类别仅有极少量的标注数据,只能提供极少量的信息
同时
虽然
现在存在一定数量的
外部标注/半标注实体抽取资源
但是
这些资源通常标注质量较差
带有噪声
并且外部资源与任务目标
可能存在知识不匹配的问题
因此
如何利用极少量的标注资源
获得一个有效的实体抽取模型
是开放领域实体抽取的又一大重要挑战
总结
上述三个挑战
是限制了实体抽取从限定域迈向开放域的核心因素
近年来
实体抽取领域的研究工作
大多围绕着解决上述三个挑战来进行的
而深度神经网络以及预训练语言模型的兴起
为解决上述挑战带来了新的机遇
三
研究现状与发展趋势
研究现状与发展趋势
前言
基于深度神经网络的实体抽取方法
当前已经居于统治地位
相比传统统计方法,
深度学习方法的主要优点是
其训练是一个端到端的过程
无需人工定义相关的特征
此外,深度学习方法
还可学习任务特定的表示
并建立不同模态、不同类型、
不同语言之间信息的关联
从而取得更好的实体分析性能
近五年来
预训练深度语言模型的飞速发展
对于
实体抽取
而言
深度学习 与
预训练语言模型
不仅仅带来了一个更好的语言学编码器
还提供了一种
有效的知识融合手段
打通了实体类别、语言、模态
以及各种可用的资源之间的鸿沟
有效地提升了小样本、
低资源、细粒度实体抽取的能力
为解决前述的三大挑战
提供了重要的技术基础
1
模型架构:从序列标注到生成模型
概述
传统方法
通常将实体抽取
建模为一个序列标注问题
通过对输入中的每一个字符
进行标记并整合相关标记
来完成实体抽取
其中最常用的方法
基于条件随机场(CRF)的序列标注模型
然而,CRF 由于其自身的语义表达能力有限,
使其难以面对开放领域的嵌套、重叠以及不连续实体等复杂结构
相关研究
1
针对嵌套与重叠实体结构
Finkel 和 Manning
首次提出将依存树上的节点视为候选实体
[Finkel & Manning, 2009]
Wang 等人
设计了
一种超图结构
通过将嵌套以及重叠实体建模
为超图中不同节点连接的方式来进行实体识别
[Wang & Lu, 2018]
Wang 等
提出了一个
新的基于转移的模型
该模型通过一系列特别设计的转移动作
来构建嵌套实体提及
[Wang et al., 2018]
Lin 等人
设计了一种
基于锚点-指针网络的框架
通过将实体抽取
转化为锚点与边界两步骤抽取的问题
来识别不同锚点对应的嵌套与重叠实体
[Lin et al., 2019]
针对于非连续实体的抽取
近期的工作
主要聚焦于扩展常用的 BIO 标记的表达能力
并引入超图[Dai et al., 2020]、团 [Yu et al., 2021] 等特殊结构
使得模型能够处理非连续实体抽取的问题
分析
虽然
这些方法
在特定的实体抽取数据集与特定的结构上
已经取得了很好的效果
但是
其标记结构的适用范围较窄
且结构的设计必须能够防止产生歧义以及不一致性
然而
表达能力更强、更无歧义的标注模式
将不可避免地导致
训练和解码过程中更高的时间复杂度
相关研究
2
说明
许多学者
开始聚焦于
将实体抽取任务与
自然语言处理领域中的其它常见的任务范式进行对接
这类基础的范式通常较为灵活
因此可以很好地表达复杂的实体结构
同时
通过使用这些范式
建模实体抽取任务
可以非常有效地利用现有的其它任务的资源
使得开放域实体抽取模型
可以在仅有少量相关训练数据的情况下
取得较好的性能
为此,
Li 等人
提出了基于阅读理解模型架构的实体抽取模型
通过将实体抽取
转化为一个基于阅读理解的区块抽取任务
来统一建模各类实体抽取任务
[Li et al., 2020]
近期,
Yan 与 Lu 等人
则提出通过生成模型
来将实体抽取任务
直接转化为
生成目标实体位置或实体区块的生成任务
从而更直接地完成实体抽取
[Yan et al., 2021, Lu et al., 2022]
分析
虽然
这类模型
目前已经表现出了非常好的性能
同时对数据的依赖度较低
且可复用性与可迁移性较好
但是
由于这些模型
通常具有较高的模型复杂度
其解码过程相比于传统的序列标注模型代价更高
因此
如何设计更好的生成架构
降低解码复杂度
提升解码效率将
2
学习算法:从粗粒度有监督学习
到细粒度小样本学习
概述
绝大部分传统的实体抽取研究
集中在构建更精准的模型和方法
这些方法
通常面向预先定义好的粗粒度实体类别
使用大规模标注语料训练模型参数
不足
然而
在构建开放领域实体抽取系统时
这些有监督方法往往依赖于
大规模的训练语料来提升模型性能
因此
无法被用于
开放类别、资源缺乏的实体抽取任务当中
近年来
有许多工作重点关注于
解决实体抽取中
① 类别开放的细粒度实体抽取 与
② 资源缺乏的小样本实体抽取 两大挑战
对于开放类别的细粒度实体抽取
当前的工作主要聚焦于两条技术路线
相关研究1
:
细粒度实体抽取
这类工作包括
基于远距离监督的方法
[Choi et al., 2018, Onoe et al., 2021]
基于数据增强的方法
[Xin et al., 2018, Dai et al., 2019]
分析
1
这些方法
最主要优势在于
其主要是对数据层面进行处理
因此
不需要在模型层面进行改动
使得其可以直接
接入下游各种不同的实体抽取模型
2
但是
由于额外的数据
通常是通过弱监督方式构造得来的
因此
必然面临着
数据质量差、存在大量噪声数据的问题
3
此外
由于开放域实体类别众多
因此
即便利用众多的外部数据
也无法保证覆盖所有的实体类别
因此
如何解决数据质量与数据覆盖度的问题是这类方法所面临的核心挑战
研究
Ren等
提出利用预定的标签结构
来学习更好的类别表示
[Ren et al., 2016, Xu & Barbosa, 2018, Abhishek et al., 2017]
Liu 等人
提出了一种全新的标签推理网络
通过一个生成式的框架
来自动地捕捉标签间所蕴含的隐式关系
[Liu et al., 2021b]
分析
这类方法
充分地利用了
类别标签间的关联信息作为辅助
有效地提升了
在资源稀缺的实体类别的抽取性能
但是
由于这类方法
均依赖于类别间的关联信息
而这类关联信息通常难以获取
并且需要引入一定的类别间先验假设
因此
如何在更自由的类别体系当中更好地捕捉类别间的关联是这一路线的核心挑战
相关研究2
:
小样本实体抽取
学习算法层面另一个研究重点
是在稀缺资源条件下的实体抽取问题
并由此衍生出了
小样本实体抽取这一研究方向
三个阶段
预学习
即
在现有的数据以及现有的实体类别上
学习得到一个较具通用性的抽取模型
微调
即
利用新类别上的小样本数据微调上述的通用性模型
以得到一个新类别的实体识别模型
预测
即
利用微调后的模型来进行实体抽取
分支主题
这一方向上的基线方法
是直接使用新类别上的小样本数据
直接对模型进行训练
然而
由于训练样本数量较少
这一方法通常不能取得满意的性能
三大类别
基于原型学习的方法
即
利用少量样本获取特定类别的原型
并利用这一原型进行实体抽取
基于弱监督学习的方法
即
利用少量样本
从大规模语料库中获取更多的样本
扩充训练数据,从而进行有监督学习
基于自学习的方法
即
通过小样本学习得到一个模型
然后通过模型-数据之间的相互迭代
使得模型能够在少量标注数据
和大规模无标注数据上进行自我学习
说明
这三种方法实质上是
分别从学习层面、
数据层面以及模型层面
来提升
小样本实体抽取的性能
因此
相互之间可以互补
并在近期
在预训练语言模型上
衍生出了基于 Prompt 的微调等相关工作
[Ding et al., 2021]
然而
现有的小样本学习方法
在实体抽取上
与有监督学习方法之间仍存在着较大的差距
因此
如何利用少量样本获取更好的实体抽取模型仍然是一个尚待解决的重要问题
3
模态融合:从单语单模到多语多模
概述
深度学习和预训练模型
为实体抽取领域带来了另一大进展是
打通了不同语言与不同模态间的信息
1
不同语言不同模态的数据
可以被映射到同一个语义空间中
使得跨语言跨模态之间的语义
可以进行交互计算
这为多语多模实体抽取
提供了坚实的基础
2
富资源的语言
可以为低资源语言的实体抽取提供知识的迁移
而图像、音频等模态的信息
则可以为本文的实体抽取提供额外的依据
因此
多语言多模态的实体抽取
日渐成为了当下的一大研究热点
相关研究
1
在多语言
实体抽取方面
绝大多数工作
遵循的核心思路
是“单语标注,多语使用”
即
通过充分利用富标注信息语言的标注预料
并通过多语之间的语义对齐
来提升资源缺乏语言的实体抽取性能
这方面的工作主要包括
① 数据对齐
② 表示对齐
③ 基于知识蒸馏的方法
在数据对齐方面
Tedeschi 等人
提出了利用 Wikipedia
中的多语对齐信息
来自动构建多语言
实体抽取对齐数据的方法
[Tedeschi et al., 2021]
Liu 等人
提出了一种
多语言数据增强的方法
来完成零样本条件下的
跨语言实体抽取能力迁移
[Liu et al., 2021a]
在表示层学习方面
大多数工作
通过利用多语言神经网络或者预训练模型
将多语言的表示映射到统一空间
并在这一空间上进行实体抽取
从而使模型
具有仅利用部分语言的训练数据
实现多语实体抽取的能力
[Shaffer, 2021, Fan et al., 2021, Rahimi et al., 2019]
基于多语言微调
和蒸馏的方法
通常首先学习一个基础的多语言模型
然后在少量样本上
分别微调某个特定语言的解码参数
从而完成
跨语言之间的知识迁移
[Dhamecha et al., 2021, Wang et al., 2020]
说明
这些
方法
在多语言,
特别是资源匮乏的语言的实体抽取任务上
已经展现出了良好的效果
相关研究
2
在多模态
实体抽取方面
目前的工作
主要通过引入语音或者是图像中的额外信息
从而辅助完成文本中的实体抽取
[Tedeschi et al., 2021]
多模态融合的
主要技术手段包括
① 表示层的融合
[Zhang et al., 2021]
② 跨模态多任务学习 等
[Sui et al., 2021]
这些工作
在短文本以及不规范文本实体抽取等文本单模态存在歧义的场景中
取得了明显的提升
五
总结与展望
总结
实体抽取
是自然语言处理与知识图谱领域的基础性技术
近年来
1
实体抽取领域逐渐从限定领域迈向开放领域
由此面临着
类别开放、实体结构复杂、标注资源缺乏
等的重要挑战
2
深度学习和大规模预训练语言模型的兴起
已经为实体抽取领域
带来了范式级别的改变
这种深刻的改变
体现在模型架构、学习算法与模态融合等多个层面
并显著地改变了实体抽取领域的技术发展路线
然而在当下
开放领域的实体抽取
仍然面临着诸多挑战
大模型对于实体抽取领域的影响
还远远没有完全展现出来
展望
在未来
如何设计出
更通用、有效、高速的模型架构
如何更充分地利用现有资源
使得实体抽取模型
具有更快速的跨类别泛化能力
如何更好的实现
多模态多语言的打通融合
四
产业发展现状
概述
实体抽取
是自然语言处理最基本的技术之一
近年来,
国内外众多著名人工智能厂商
纷纷构建自己的人工智能开放平台和相应的开源工具
为其他行业提供人工智能服务
大多数
绝大多数相关的人工智能开放平台
均对外提供有实体抽取的服务与接口
国内具有代表性的平台 包括
百度 AI 开放平台、 阿里灵杰、华为 AI 开放平台 和 腾讯 AI 开放平台等
除了在常见类别的限定域实体上
这些人工智能开放平台
还根据不同的业务场景
提供了法律、金融、医疗等
诸多领域的领域特定实体抽取服务
帮助相关领域企业实现
数字化、智能化转型
在开源工具方面
许多开源工具在学术界和
产业界均有着较大的影响力
哈工大研发的 LTP 语言技术平台、复旦大学研发的 FudanNLP、斯坦福大学研发的 CoreNLP 和 Stanza、清华大学研发的 THULAC、HanNLP 以及 spaCy 工具包等
这些开源工具
一般都内置命名实体识别模型
但是
通常仅支持对基本实体类型的识别
如:人名、地名、机构名等
因此
这些开源工具
对于开放领域的实体抽取的支撑仍略显不足
在众多领域的应用
在新闻媒体领域
实体抽取技术能够帮助新闻采编工作更加高效
在法律服务领域
实体抽取技术通过识别法律文书中的法律术语等相关信息,
构建法律领域知识图谱
对类案文书、法律规则、相应法条进行自动推荐,
从而帮助法官从繁重的文书工作中解脱出来
在电商领域
实体抽取技术能够提取快递单据中的文本信息,
并输出包含姓名、电话、地址等的结构化信息,
帮助快递或电商企业
提高单据处理效率
在医疗领域
实体抽取技术能识别电子病案中的医学实体,
进而辅助医生及时发现病历书写中的缺陷,
全面提升病历质量,
帮助医院优化诊疗流程、提高诊疗效率和全面提高医疗质量
在构建行业知识图谱方面
在汽车领域
针对汽车这种
属性较多的实体领域
汽车知识图谱可将不同品牌、不同型号的汽车
产品信息整合,为消费者提供全面的导购服务
在政务领域
利用实体抽取技术构建知识图谱
可以聚合政策信息
提供统一的数据访问视图,
支撑高效政务搜索和问答,
提升政务处理效率
在油气勘探领域
基于勘探知识图谱
可以提供丰富的油气应用
如:语义搜索、油气知识推荐等,支撑油气勘探开发、降本增效等
在各行业的客服领域
构建基于知识图谱
的多轮对话系统
可以分析用户对话中的实体和关系
根据实体和关系进行知识图谱的查询和推理
从而选择相应的对话策略,
减少人工成本,提高工作效率等
0 条评论
下一页