知识图谱_4实体关系抽取
2024-05-19 17:47:31 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“实体关系抽取”部分。实体关系抽取是知识图谱构建的重要环节,其主要目标是从非结构化和半结构化的文本中自动识别和抽取出实体之间的关系。这些关系包括各种各样的类型,如国籍、职务、合作关系等。实体关系抽取的应用领域广泛,包括但不限于搜索引擎、智能问答系统、推荐系统等。
作者其他创作
大纲/内容
一
任务定义
、目标和研究意义
任务定义
、
目标
关系
定义
两个或多实体之间的某种联系
实体关系抽取
概念
是检测和识别出实体之间具有的某种语义关系
并将结果以结构化的形式存储
如
给定文本
“华扬联众数字技术股份有限公司于 2017 年 8 月 2 日在上海证券交易所上市。”
通过实体关系抽取
可以得到三元组
<华扬联众数字技术股份有限公司,上市时间,2017 年8 月 2 日>,
<华扬联众数字技术股份有限公司,上市地点,上海证券交易所上市>。
<华扬联众数字技术股份有限公司,上市地点,上海证券交易所上市>。
研究意义
在理论及应用方面
在理论方面
实体关系
抽取
涉及到
自然语言处理、机器学习、
逻辑推理、数据挖掘
等多个学科的理论和方法
不仅
能得到结构化知识
而且
对相关学科理论的完善和发展
也将产生积极的促进作用
在应用方面
实体关系
抽取
可以为
大规模知识图谱的构建
提供核心技术
是实现文本
从语法分析到语义分析的关键环节
同时也是
智能信息服务的关键支撑
将促进
以知识为核心的信息检索、智能问答、人机交互和海量数据管理
等多个研究方向
的快速发展
进而推进
互联网相关产业的进一步发展
二
研究内容与挑战
研究内容
实体关系抽取
是信息抽取领域的一个经典任务
根据抽取数据来源
主要可以分为
① 结构化、② 半结构化、③ 非结构实体关系抽取三类
目前研究工作
主要针对抽取难度较大的非结构化文本展开
语义关系表征
主要研究
如何用特征来表示实体之间的语义关系
具体研究
内容包括
① 基于规则的方法
② 统计机器学习方法
分为:特征向量、核函数、
深度学习自动特征学习等
抽取数据处理
主要研究
如何处理不同类型的关系抽取数据
具体研究
内容包括
远程监督标注数据噪声处理
小样本关系抽取
数据隐私保护
如何从预训练语言模型中抽取知识 等
复杂关系建模
主要研究
如何处理实际应用场景中的复杂关系
具体研究
内容包括
文档、对话、多模态
等复杂场景下的
关系抽取
多元关系抽取
自动发现实体间的新型关系 等
面临挑战
自然语言表达的多样性
关系抽取的核心
将自然语言表达的关系知识
映射到关系三元组上
然而
自然语言表达具有多样性和隐含性
导致关系抽取任务极具挑战性
概述
指的是
同一种关系可以有多种表达方式
例如
“总部位置”
这个语义关系
可以用 “X 的总部位于 Y”,“X 总部坐落于 Y”,“作为 X 的总部所在地,Y⋯” 等不同的文本表达方式
关系表达的隐含性
概述
是指
关系有时候在文本中找不到任何明确的标识,
关系隐含在文本中
例如
蒂姆·库克与中国移动董事长奚国华会面商谈“合作事宜”,透露出了他将带领苹果公司进一步开拓中国市场的讯号
在这一段
文本中
并没有直接给出蒂姆·库克和苹果公司的关系
但从“带领苹果公司”的表达,我们可以推断出蒂姆·库克是苹果公司的首席执行官 (CEO)
实体关系的复杂性
关系抽取的目标
抽取实体之间的语义关系
然而
真实世界中同一对实体之间可能有多个关系
而且有的关系可以同时存在,而有的关系具有时间特性
例如
中国和北京的关系有多个,北京坐落于中国,北京是中国的首都,北京是中国的政治中心,北京是中国的文化中心。这些关系可以同时存在
但是如果两个人本来是夫妻关系,后来离婚了,他们就不是夫妻关系了,是前妻或者前夫的关系,这个类关系具有时空性,不能单独存在
三
技术方法和研究现状
技术方法和研究现状
前言
实体关系抽取
在过去的 20 多年里
都有持续研究
主要以 MUC、ACE、SemEval、KBP 等
评测会议提出的任务展开
其技术方法
也由
人工标注语料、基于“特征工程”的机器学习方法
发展到
利用远程监督自动标注语料、
机器自动学习特征的深度学习方法
说明
深度神经网络特别是
BERT、GPT 等预训练语言模型
为实体语义关系抽取带来了新的突破
与传统的非神经网络方法相比性能显著提升
为自动构建大规模知识图谱奠定带来了曙光
受到学术界和工业界的广泛关注
近年来
在 ① 语义关系表征 ② 抽取数据处理 ③ 复杂关系建模
等 研究方向上
涌现出一大批新的工作
1
语义关系表征
概述
目前
利用神经网络自动学习
表征实体语义关系的特征
是一种非常有效的方法
已得到研究者共识
早期工作
主要采用流水线的方法
即:先进行实体识别后语义关系分类
已得到研究者共识
相关研究
Zeng 等[Zeng et al., 2014]
尝试使用卷积神经网络
自动学习语义关系分类特征
之后研究人员
陆续将关系表示涉及的句法结构等信息引入进来,
进一步提升了语义关系抽取的性能
流水线方式
忽视了实体识别和关系分类两个任务之间的关联性
并且不可避免地存在实体识别模块错误传递
针对此问题
Li 等 [Li & Ji, 2014]
最早提出使用联合模型
捕获语义关系之间错综复杂的关联
并通过实验验证了联合抽取的可行性
最近几年
实体语义关系表征方向上的研究热点
实体关系联合抽取
基本出发点
利用实体识别任务帮助学习更好的语义关系特征
联合抽取又分为
① 序列标注 ② 表填充 ③ 序列生成
等三种方法
序列标注方法
概述
通常在循环神经网络
或预训练语言模型基础上
接一个命名实体识别序列标注网络
然后再接一个关系分类的网络
相关研究
Miwa 等
[Miwa & Bansal, 2016] 等
首先使用长短记忆网络编码输入的句子
然后通过序列标注进行实体识别
最后考虑实体在依存句法树上的路径对检测到的实体进行关系分类
模型训练时
利用实体标签和关系标签联合更新网络参数
Katiyar 等
[Katiyar & Cardie, 2017]
针对 Miwa 等所提方法依赖依存句法分析的问题
使用注意力机制帮助捕获
实体对的语义关系特征,取得了更好的效果
Zheng 等
[Zheng et al., 2017]
提出了一种新的标注策略
将实体识别和关系分类任务融入标注策略,达到联合的目的
但是该标注策略无法处理三元组重叠的问题
Takanobu 等
[Takanobu et al., 2019]
使用分层的强化学习标注框架
来增强实体和关系之间的交互性
整个抽取的过程被分解为高层和低层并分别用于关系判定和实体抽取
Fu 等 [Fu et al., 2019]
提出两阶段
图的方法
第一阶段使用多任务的方式
找到实体和所有可能的关系得分
第二阶段构建实体关系图建模实体和关系之间的交互
实验结果
显示
对重叠关系的预测
比以前的序列方法有较大的改进
Wei 等 [Wei et al., 2020]
提出了层级二值标注框架
首先通过序列标注的方式得到头实体边界
然后每种关系使用一个二值序列标注器
找到头实体在此关系中对应的尾实体
上述方法共同特点是
实体识别和关系抽取任务共享同一个网络编码
Zhong 等
[Zhong & Chen, 2021]
认为命名实体识别和关系抽取表示特征应该不一样,
底层共享一个表示层会限制模型的表达能力
提出了两个编码器组成的模型
表填充方法
相关研究
最早由 Miwa 等
[Miwa & Sasaki, 2014]
提出
他们将句子中的词看作矩阵的横纵坐标
实体识别转换为填充表格的对角线元素
关系分类任务是填充上三角或者下三角矩阵
然后使用分类器填充表格元素
Gupta 等
[Gupta et al., 2016]
进一步使用循环神经网络依次填充表格
建模表格之间的依赖关系
从而捕获三元组之间的交互
Zhang 等
[Zhang et al., 2017]
利用句法信息全局优化表格填充
帮助更好地进行关系抽取
Adel 等
[Adel & Schütze, 2017]
根据实体的位置将句子分为三段
同时预测关系和实体的类型
利用条件随机场模型
建模实体类型与关系之间的依赖关系
上述表格填充方法
要求每个元素只能填充一个元素
无法处理三元组重叠的问题
受序列标注方法的启发,Bekoulis 等
[Bekoulis et al., 2018]
提出基于多头选择的方法
该方法
单独使用序列标注层检测实体
然后允许每个词
在表格中选择多个词构成三元组
从而解决了重叠三元组抽取的问题
上述方法在表填充时
使用多任务学习
的思路
将填充过程分成了两个阶段
存在暴露偏置问题
Wang 等
[Wang et al., 2020]
使用单阶段解码
将抽取框架统一为字符对链接问题
同时解决重叠关系和暴露偏置问题
序列生成
相关研究
最早由 Zeng 等
[Zeng et al., 2018b]
提出
将联合抽取问题看作是一个序列到序列生成问题
使用带拷贝机制的
编码器-解码器模型 CopyNet 解决此问题
解码时通过从原句子中
拷贝实体和预测关系得到三元组
CopyNet
存在着无法处理
由多个词构成的实体的问题
之后一系列
改进序列到序列的模型
相继被提出
Zeng 等
[Zeng et al., 2020a]
在其编码器端增加序列标注模块识别实体
Nayak 等
[Nayak & Ng, 2020]
提出新的解码策略
从而避免无法处理词构成的实体
Ye 等 [Ye et al., 2020]
使用生成式 Transformer
并利用对比学习的方式训练模型
进一步提升语义关系特征的有效性
上述基于生成的方法
使用自回归的方法解码
无法避免模型存在的暴露偏置问题
为此,Zhang 等
[Zhang et al., 2020a]
提出一种树状解码的策略
使得解码长度不依赖于三元组的个数
有效减轻了暴露偏置的影响
Sui 等 [Sui et al., 2021]
将联合抽取进一步看作是序列到集合问题
使用非自回归方法解码
彻底消除暴露偏置的存在
2
抽取数据处理
概述
目前
性能占据主导地位的神经网络实体关系抽取
是典型的“数据饥渴”模型
不足
需要大量高质量的标注数据
而人工标注数据费时费力、一致性差
为此
研究人员提出远程监督关系抽取
相关研究 1
Zeng 等
[Zeng et al., 2015]
先利用分段卷积神经网络学习每个句子的表示
然后使用多示例学习避免噪声的干扰
Lin 等
[Lin et al., 2016]
提出只选取每个包中一个句子
作为包的表示会丢失信息
提出使用注意力机制对包中的示例
进行加权得到包的表示向量
Jiang 等
[Jiang et al., 2016]
通过对包内所有的句子
做最大池化操作
提取出示例之间的隐藏关联
并且针对实体对之间
可能存在多种关系的问题
设计了一种多标签损失函数
使用 Sigmoid
计算每一个类别的概率
然后判断该包
是否可能包含该类别
Zeng 等
[Zeng et al., 2018a]
利用强化学习抽取包中每个句子的关系
然后使用句子中的关系帮助包中关系的确定
Ma 等
[Ma et al., 2021]
采用负样本学习的方法
直接找出并过滤噪声样本
基于多示例学习的方法
可以减轻数据的噪声
但是包中句子中很多其他有益的信息未被关注到
Chen 等
[Chen et al., 2021]
以句子为单位,使用
示例对比学习的方法挖掘其中丰富的语义信息
上述方法
主要针对错误正样本展开
由于知识库的不完备性
远程监督
还面临着错误负样本类噪声
相关研究 2
远程监督
为高效收集训练数据开启了新的纪元
但是真实场景中
长尾知识而言
仍难以通过远程监督机制来得到训练实例
Han 等
[Han et al., 2018]
首次将小样本学习引入到关系抽取
构建了小样本关系抽取数据集 FewRel
之后
基于混合注意力机制的原型网络 [Gao et al., 2019a]、
多级匹配和整合策略 [Ye & Ling, 2019]、
预训练语言模型[Baldini Soares et al., 2019]、
基于贝叶斯的元学习 [Qu et al., 2020]
等方法相继
被提出来完成该任务
Gao 等
[Gao et al., 2019b]
在 FewRel 基础上
增加领域迁移和“以上都不是”检测任务
提出了 FewRel 2.0 数据集
另外
很多领域的数据隐私性要求极高
无法直接获取数据
同时
针对真实应用场景中
数据管理与隐私保护的要求日益严格
而现有方法的训练过程
需要暴露大量数据
Sui 等
[Sui et al., 2020a]
提出了联邦远程监督关系抽取任务
利用懒惰多示例
学习算法
通过跨平台之间的协作,缓解
联邦远程监督关系抽取中的数据噪声问题
并利用基于
集成蒸馏的联邦训练框架
降低联邦学习中的通信开销
增加了基于大规模预训练语言模型的关系抽取方法
在联邦设定下的实用性 [Sui et al., 2020b]
相关研究 3
传统的实体关系抽取研究
主要面向非结构化文本
近年来
随着大规模预训练语言模型的快速发展
研究者认为预训练
的语言模型 (如 BERT 等) 中
除包含的语言学知识外
还包含了事实性的知识
因此
可以将预训练语言模型
当作一个现成的、开放的知识库
Petroni 等
[Petroni et al., 2019]
对语言模型记忆知识的能力进行了探测
针对该问题提出了语言模型分析(LAMA)任务
并基于多个知识源手工创建了单个词语的完形填空数据集
Jiang 等
[Jiang et al., 2021]
认为 LAMA 只是测量了语言模型所知道的下限
并提出了更高级的方法来生成更高效的查询
进一步挖掘模型提取知识的能力
Roberts 等
[Roberts et al., 2020]
使用了一种更具有难度的闭卷问答任务
让模型先在相关数据集上微调
在微调过程中模型需要学习
如何挖掘之前预训练获得的知识并加以利用
实验
表明
预训练
语言模型
不仅存储了大量的知识
并且可将这些知识迁移到下游任务中
Verga 等
[Verga et al., 2021]
在 BERT 架构基础上
加入了一个
实体记忆模块和事实记忆模块
通过加入对实体、关系
和三元组事实知识的编码信息
来增强文本表示
在一定程度上
模块化地将模型中
存储的事实知识分离出来
3
复杂关系建模
复杂关系建模
概述
传统的关系抽取
主要处理的是简单关系
复杂关系抽取
试图提取涉及多个实体或在特定约束下的更复杂关系
该方向的研究
目前呈现百花齐放状态
包括:文档级、多元关系、跨文档、
增量式、多模态抽取等多个研究点
相关研究 1
Yao 等
[Yao et al., 2019]
提出了一个人工标注的大规模文档级
语义关系抽取数据集 DocRED
Christopoulou 等
[Christopoulou et al., 2011]
利用以边为中心的图神经网络
建模跨句之间的实体交互
Nan 等
[Nan et al., 2020]
使用图神经网络学习文档地潜在结构
逐步汇总多跳信息进行语义关系推理
Zeng 等
[Zeng et al., 2020b]
使用两个图网络结构
来实现语义关系抽取
一个图用于特征传播
另外一个用于关系推理
除了使用图网络外
研究者也开始尝试直接使用大规模语言模型建模文档
Zhou 等
[Zhou et al., 2021]
提出自适应阈值
代替用于多标签分类的全局阈值
并直接利用预训练模型
的自注意力得分
找到有助于确定关系
的相关上下文特征
上述方法
主要关注文档中的二元关系
近年来也有工作探索多元关系抽取
Song 等
[Song et al., 2018]
提出基于图 LSTM 的关系抽取网络
抽取多个句子中存在的多元关系
Jia 等
[Jia et al., 2019]
提出多尺度神经结构进行多元关系抽取
所用方法同时考虑了
不同尺度的文本跨度和不同子关系的学习表示
相关研究 2
Yao 等
[Yao et al., 2021]
提出了一个新的跨文档抽取任务
并发布了数据集 CodRED
Zhang 等
[Zhang et al., 2020b]
探索了如何在实际的医疗对话中
抽取出症状、检查、手术、一般信息及其相应的状态
另外
现有关系抽取任务设定
一般假设有预先定义好的封闭关系集合
实体间的新型关系
无法被有效获取
Cui 等
[Cui et al., 2021]
提出基于关系原型表示的持续关系抽取方法
Zhao 等
[Zhao et al., 2021]
在预定义关系数据集上预训练
然后通过最小化标记数据
和未标记数据上的联合目标
完成未标记数据聚类
最后进行增量式学习
相关研究 3
Wan 等
[Wan et al., 2021]
提出基于小样本学习的方法
同时利用文本和面部图像进行社会关系抽取
并发布了由四部经典名著
和相应的电视剧组成的多模态数据
Zheng 等
[Wan et al., 2021]
构造了一个多模态的关系分类数据集
给定图像和单句及两个实体进行关系分类
并验证了可以通过视觉信息帮助纯文本的关系分类
四
发展趋势
前言
实体关系抽取
技术研究蓬勃发展
已经成为了信息抽取和自然语言处理的重要分支
说明
一方面
得益于系列国际权威评测和会议的推动
如
消息理解系列会议(MUC,Message Understanding Conference),
自动内容抽取评测(ACE,Automatic Content Extraction),
文本分析会议系列评测(TAC,Text Analysis Conference)
另一方面
也是因为实体关系抽取技术的重要性和实用性
使其同时得到了
研究界和工业界的广泛关注
实体关系抽取技术自身的发展
也大幅度推进了中文信息处理研究的发展
迫使研究人员面向实际应用需求
开始重视之前未被发现的研究难点和重点
纵观实体关系抽取研究发展的态势和技术现状
本文认为实体关系抽取的发展方向
如下(四个方面)
1 新类别/开放类别上的小样本学习能力
目前
小样本学习设定
需要用一个巨大的训练集训练的
测试时只给出 N-way K-shot
在这 N*K 个样本上学习并预测
真实应用中
① 真实场景下的小样本学习
不存在巨大的训练集
② 还需要考虑
如何自动发现新类别
迫切需要利用小样本
实现模型在新类别关系上的快速训练模型
Prompt
范式
从 GPT3 开始,预训练-提示 (Prompt) 学习范式受到研究者的关注
该范式
将下游任务也建模成语言模型任务
在
只给出几条或几十条样本作为训练集
借助与大规模预训练语言模型中蕴含的大量知识
此外,相对于传统的
Pretrain+Finetune 范式
Prompt
可摆脱指数级的预训练参数量
对巨大计算资源的需求
高效的利用预训练模型
基于上述分析
本文认为实体关系抽取发展方向之一
是:利用预训练—提示学习范式进行高效的新类别/开放类别上的小样本学习
具体包括
开放类别语义标签自动生成与新类别的挂载
提示学习中关系抽取任务模板的设计与自动学习
预训练-提示学习范式进行实体关系抽取的理论分析
2 数据隐私保护下的关系可信抽取
目前
性能较好的
实体关系抽取模型
主要是基于
有监督学习
或 远程监督学习
此类模型
需要将大规模的标注数据集中暴露给模型
但是
在金融、医疗、安全、军事等应用场景中
数据管理与隐私保护的要求日益严格
因此
如何实现数据隐私保护下的
实体关系抽取模型高效训练
是目前技术
在真实应用场景中落地的主要挑战之一
基于上述分析
本文认为实体关系抽取的发展方向之一是:数据隐私保护下的关系可信抽取
具体包括
数据隐私保护下的大规模实体关系抽取数据自动生成
含噪数据下的实体关系抽取模型鲁棒性训练
数据隐私保护下的实体关系抽取模型高效训练
3 多模态关系抽取
目前
关系抽取
主要针对的是纯文本数据
而常见的文档
具有多样的布局且包含丰富的信息
以富文本文档的形式呈现包含大量的多模态信息
从认知科学的角度来说
人脑的感知和认知过程
是跨越多种感官信息的融合处理
如:人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等
实体关系抽取技术的进一步发展
也应该是针对多模态的富文档
基于上述分析
本文认为实体关系抽取的发展方向之一是:多模态信息的融合
具体包括
面向关系的多模态预训练模型的设计
多模态信息抽取框架中跨模态对齐任务设计
多模态信息的提取和表示
4 数据驱动和知识驱动融合
现有的神经网络
实体关系抽取方法
依靠深度学习
以数据驱动的方式得到各种语义关系的统计模式
其优势在于
能从大量的原始数据中学习相关特征
比较容易利用证据和事实
但是
忽略了怎样融合专家知识
说明
单纯依靠神经网络
进行实体关系抽取
到一定准确率之后,就很难再改进
从人类进行知识获取来看
很多决策的时候同时要使用先验知识以及证据
数据驱动和知识驱动结合
是模拟人脑进行信息抽取的关键挑战
基于上述分析
本文认为信息抽取的发展方向之一是:构建数据驱动和知识驱动融合抽取技术
具体包括
神经符号学习信息抽取框架的构建
学习神经网络到逻辑符号的对应关系
神经网络对于符号计算过程进行模拟
0 条评论
下一页