知识图谱_6知识融合
2024-05-19 18:05:32 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“知识融合”部分。在知识图谱中,知识融合是一个重要的过程,它通过融合不同来源、不同结构的知识,使知识更加完整和准确。知识融合的过程通常包括实体对齐(Entity Alignment)、属性补全(Attribute Completion)和关系预测(Relation Prediction)等步骤。通过知识融合,我们能够从数据中发现新的知识,实现跨领域的知识共享和重用。
作者其他创作
大纲/内容
一、任务定义、目标和研究意义
任务定义
知识图谱概念
以符号化的方式描述真实世界中的实体及其属性和相互关系
并将它们组织成事实三元组的结构
知识图谱应用
时至今日,知识图谱已成为各类知识驱动人工智能方法的重要资源
涵盖了包括社交网络、生物医学、地理信息、电子商务、电影音乐等众多领域
支撑语义搜索、 智能问答、推荐系统、大数据分析等智能应用
存在的问题
知识图谱可能由不同的机构和个人构建
同时,构建知识图谱的数据可能有各种来源
导致不同的知识图谱之间存在【多样性和异构性】
例如:
对于不同的相关领域(甚至是相同领域)
通常会存在多个不同的实体指称真实世界中的相同事物
目标
知识融合旨在
将不同知识图谱融合为一个统一、一致、简洁的形式
为使用不同知识图谱的应用间的交互建立互操作性
知识融合常见的研究内容包括
① 本体匹配
(也称为本体映 射)
② 实体对齐
(也称为实例匹配、实体消解)
③ 真值发现
(也称为真值推断)
④ 实体链接 等
面临的核心挑战主要包括
① 大规模、② 异构性、③ 低资源等问题
研究意义
知识融合
是知识图谱研究中的一个【核心问题】
知识融合研究
有助于提升基于知识图谱的信息服务水平和智能化程度
推动人工智能、自然语言处理、语义网、数据库等相关领域的技术进步
具有重要的理论价值和广泛的应用前景
可以创造巨大的社会和经济效益
二、研究内容和关键科学问题
预处理
预处理主要包括
① 预先对输入的知识图谱进行清洗
② 后续步骤的准备
清洗
主要为了解决输入的质量问题
后续步骤的准备
通常使用分块(blocking)技术
通过对索引的设计
可以避免在匹配环节达到知识图谱规模的平方级复杂度
这里的一个关键问题是
对分块大小和数量的权衡
在尽量不丢失可能结果的情况下使分块尽可能的小
匹配
根据匹配对象的不同,匹配一般分为
① 本体匹配、② 实体对齐、③ 实体链接等方面
本体匹配
侧重发现
知识图谱模式层的等价或相似的类、属性或关系
实体对齐
侧重发现
指称真实世界相同个体的实例
实体链接
将自然语言文本中的实体提及 (mention)
链接到知识图谱中的实体节点
如何从语义上消解对象之间的异构性
是匹配环节待解决的【关键科学问题】
真值判断
在匹配的基础上,真值推断的主要目标是
从不一致的数据中推测出真值
以实现多源异构知识的关联与合并
最终形成一个一致的结果
研究的关键在于
如何综合判断
数据源的可靠性
和数据值的可信度
三、研究技术和研究现状
1. 本体匹配
一个段落
本体匹配的目标
建立不同本体概念之间的语义映射[Euzenat & Shvaiko, 2013]
近年来,关于本体匹配的研究进展不多
早期的一些代表性工作包括
RiMOM [Li et al., 2008]
Falcon-AO [Hu & Qu, 2008]等
LogMap [Jiménez-Ruiz & Grau, 2011]
获得了 2021 年语义网科学联盟(SWSA)颁发的十年最具影响力论文奖
LogMap
是一个高度可扩展的本体匹配系统
它可以
a. 高效地匹配包含数万(甚至数十万)类别的本体
b. 利用复杂的推理和修复技术来减少逻辑不一致性的数量
c. 在匹配过程中支持用户的可视化干预
近年来
LogMap 也将表示学习技术集成到本体匹配任务中
2. 实体对齐
1)基于表示学习的实体对齐
一个段落-内容介绍
近年来,以知识图谱表示学习为基础的实体对齐方法逐渐成为主流
基于表示学习的实体对齐框架
主要包含 2 个主要模块
[Sun et al., 2020; Zhao et al., 2020]
[Sun et al., 2020; Zhao et al., 2020]
① 表示学习模块
将单个知识图谱嵌入到向量空间
多数方法采用
基于几何运算的模型
也有工作使用
图神经网络等
② 对齐模块
使用先验知识或人工标注得到少量先验对齐进行训练
再使用常用的向量度量函数对齐实体的表示
或者寻找全局最优的集体实体对齐结果
还有一些工作
采用迭代的方式
不断选择新发现的实体对齐
来扩充训练样本
表示学习模块与对齐模块之间存 在两种典型的交互方式
① 将不同知识图谱嵌入到统一的向量空间
② 学习不同知识图谱向量空间之间的映射关系
一个段落-代表性方法
Dual-AMN [Mao et al., 2021]
是近期的一个代表性方法
其在降低模型计算复杂度的情况下
保持了对知识图谱内和知识图谱间信息的建模
具体地
Dual-AMN
设计了一个基于关系型注意力的卷积层
用于捕捉单个知识图谱内的结构信息
针对知识图谱间的对齐信息
Dual-AMN
设置了一组代理向量隐式地表示图谱之间的对齐关系
并通过代理匹配注意力机 制来捕捉
一个段落-挑战性研究
除了面向常规实体对齐场景的方法
一些研究工作也尝试考虑更具挑战性的新场景
DiNGAl [Yan et al., 2021]
首次提出了动态实体对齐任务
改变了常规场景中知识图谱是静态的假设
认为图谱事实是会动态演变的
因此表示学习模型需要针对不断变化的图结构信息 对实体表示进行更新
针对该挑战
DiNGAl
先基于拓扑无关的掩码门控机制得到静态的实体表示
再采用局部更新策略对动态过程中受影响的实体表示进行修正
由于动态过程中也会出现新的先验对齐
DiNGAl
将这部分新的对齐作为正例进行训练
从而对所有实体表示进行更新
避免了从头训练的开销
一个段落-针对问题的解决
知识图谱中的事实具有时效性
而现有的实体对齐方法完全忽视了时间信息
针对该问题
TEA-GNN [Xu et al., 2021]
提出了面向时序知识图谱的实体对齐任务
使用开始时间戳和结束时间戳表示时间信息
并基于图神经网络将不同知识图谱中的实体、关系、时间戳嵌入到统一的向量空间中
整体框架如图 4 所示
TEA-GNN
首先为关系和时间戳分配不同的正交矩阵
用于获得实体的邻居信息
然后在聚合时使用了一种时间感知的注意力机制
来区分不同邻居的重要性
为了进一步集成时间信息
TEA-GNN
还将实体表示和相邻的时间表示之和进行拼接
从而得到最终的实体表示
2)基于人机协作的实体对齐
一个段落-内容介绍
基于人机协作的实体对齐方法
通过付出较小的人工代价
来获得丰富的标注数据
从而提高模型的性能
一个段落-常见方法的研究1
常见方法
先构建
实体对标签的推断结构
然后
由用户标注推断效用最大的未知实体对
并进行推断
Power [Chai et al., 2018]
计算每对实体在不同属性上的相似度
并将它们拼接成相似度向量
通过向量划分算法构造偏序结构
让用户标注偏序中前驱和后继总数最多的实体对
Remp [Huang et al., 2020]
将实体对用对齐好的关系连接构成实体消解图
再基于实体对之间的关系建立概率传播模型
通过错误容忍的真值推断策略以及最优化问题选择算法来最大化收益期望
一个段落-相关研究2
近年来,一些工作也尝试将深度神经网络和人机协作方法相结合
DTAL [Kasai et al., 2019]
基于迁移学习初始化模型参数
并根据深度模型输出的熵挑选出候选对齐用于标注
ActiveEA [Liu et al., 2021a]
提出了一种结构感知的不确定性采样策略
用于度量每个实体的对齐不确定性以及对周围邻居的影响程度
考虑到有些孤立实体在对应知识图谱内不存在可与之对齐的实体
ActiveEA
还设计了一种孤立实体识别器
从而减少对这部分实体采样而造成的偏差
一个段落-相关研究3
RAC [Zeng et al., 2021]
进一步探索了深度强化学习与主动学习技术的结合
整体框架 如图 5 所示
基于度数、PageRank 值和信息熵
RAC 设计了 3 种查询策略
考虑到不同迭代轮次中不同查询策略的重要性会有所不同,且单个查询策略不能满足所有数据集的需要
RAC 采用多臂老虎机策略
自适应地混合 3 种查询策略
并挑选出最优查询供人工标注
一个段落-相关研究4
考虑到潜在的人工标注成本
有工作开始探索不利用任何标签信息的实体对齐方法
SelfKG [Liu et al., 2022]
设计了一种自监督实体对齐算法
其利用预训练语言模型
将不同知识图谱中的实体映射到一个统一的向量空间中
并以此捕捉实体的语义相似度
为了避免利用标签信息
SelfKG 拉远随机采样到的负例实体对的表示
以此达到拉近潜在正例实体对的效果
为了避免随机采样出假负例
其只在实体所在的知识图谱中进行负例采样
在基准数据集上
该方法优于众多监督方法
展现了将自监督学习应用于实体对齐的潜力
3)多模态实体对齐
一个段落-内容介绍
考虑到图像特征可以在一定程度上帮助消歧
近期一些工作引入【图像模态】
并将多种模态的信息进行融合
基于多模态的实体对齐
逐渐成为一个新的研究热点
一个段落-相关研究1
MMEA [Chen et al., 2020]
较早地在实体对齐中考虑了图像特征空间
主要包含两个模块
① 多模态知识嵌入
用于获得实体在不同模态下的向量表示
其中
使用 TransE 生成结构特征
使用 VGG16 获得图像特征
MMEA
还额外考虑了数值型属性
并利用径向基函数(radial basis function)神经网络生成该模态的向量表示
② 在多模态知识融合模块
MMEA 认为
每个模态下的向量表示来自于不同的特征空间
因而
设置了一个公共 特征空间
并要求
不同模态下的向量表示与公共空间下的向量表示尽可能接近
以此实现
不同模态信息的互补
一个段落-相关研究2
EVA [Liu et al., 2021b]
采取了类似的建模思路
使用 ResNet-152 对图像特征进行初始化
并基于 HMAN [Yang et al., 2019a]得到关系特征与属性特征
进一步地
EVA 设计了一 种基于注意力机制的多模态加权策略
以实现多模态信息融合
此外
EVA 还探索了
多模态技术在无监督实体对齐场景下的可能性
实验结果表明
仅利用图像相似度生成初始实体对的性能能够逼近有监督场景下的表现
3. 真值发现
一个段落
真值发现
一般通过冲突检测、真值推断等技术
消除知识融合过程中的冲突
再对知识进行关联与合并
最终形成一个一致的结果
如何处理多源数据中的冲突
是真值发现的主要研究问题[Li et al., 2015]
例如:不同数据源可能对珠穆朗玛峰的高度有不同的描述
其中有些可能是不准确的,需要推断
常见的方法包括 3 类
① 第一类是迭代方法
例如 TruthFinder [Yin et al., 2008]、Investment [Pasternack & Roth, 2010]和 ACCU [Dong et al., 2009]
其将数据来源纳入考量
迭代评估数据源的可靠性与数据值的可信度直至收敛
② 第二类是优化方法
例如[Li et al., 2014a; Li et al., 2014b; Aydin et al., 2014]
其通过最小化带权整体推断误差
使得真值向可靠性高的数据源所提出的值靠近
同时距离较远的数据源会在优化过程中被分配较小的权重作为其可靠性
③ 最后一类是概率图模型
例如 SimpleLCA [Pasternack & Roth, 2013] 和 OKELE [Cao et al., 2020]
其对影响数据源可靠性的潜在因素进行假设
并利用贝叶斯网络等模型对随机变量及其依赖关系进行建模
不足
由于
迭代和优化方法中的一系列计算规则以及概率图方法中的各种影响因素
需要人为设置
常常不能真实反映
各种场景下的潜在数据分布与影响
一个段落
近年来一些工作运用深度学习探索真值推断问题
CASE [Lyu et al., 2019]
基于数据源— 数据值、数据源—数据源以及真值—数据值之间的关联
来构建异构信息网络
将真值发现建模成异构信息网络的表示学习问题
即通过节点的表示来拟合节点之间边的存在性
同时
CASE
根据数据源的表示
来建模它们在不同目标上数据值的相似性
并使用 beta 分布
来解决数据稀疏性问题
最终
CASE
利用已知真值进行半监督学习
得到网络元素的表示
将与真值的表示最接近的数据值
选作真值
一个段落
BAT [Liu et al., 2021c]
将数据源和推断目标及其之间的关联
建模成二部图
基于图自编码器和数据源之间的关联性
得到数据源的初始特征
基于预训练文本或图像信息编码器
得到带推断目标的初始特征
BAT
先通过注意力机制
计算节点之间的关联性
再使用二部图卷积网络同时聚合这些信息
得到数据源、推断目标和边的信息
最后,基于图卷积网络聚合的信息
预测推断目标的真值
并通过真值进行训练
一个段落
此外,还有工作针对批量或流式数据
研究快速更新数据源可靠性和实体真值的方法
EvolveT [Zhi et al., 2018]
注意到同一推断目标在不同时间点的真值之间具有关联性
因此
引 入了马尔可夫模型
即
下一时刻的真值
可以通过当前真值和一个固定的转移矩阵
来确定
EvolveT
基于卡尔曼滤波与平滑器
设计了一种线性时间的在线参数估计算法
实现快速高效地估计真值
4. 实体链接
一个段落-内容介绍
实体链接
通常建立在实体识别任务之上
需要预先识别
文本中的命名性实体的提及文本
然后根据该提及
枚举知识图谱中可能的候选实体
并利用排序的方式
从中挑选出最符合当前语境的实体作为链接结果[Shen et al., 2014]。
存在的问题
由于自然语言的多样性和模糊性,实体的表述往往具有较高的歧义性
这使得实体链接方法通常需要处理
“一词多义”和“多词同义”
两种歧义性问题
“一词多义”
是指同一个实体名称可以表示多个实体的情况
例如,给定自然语言文本“苹果发布了最新的手机产品 iPhone 13”
实体链接方法需要将其中的“苹果”
链接到实体“苹果 Apple(企业)”
而非实体“苹果(水果)”
“多词同义”
是指一个实体可以用多个名称来表示的情况
例如,“自然语言处理”和“NLP”
都可以用来表示 “自然语言处理(领域)”这个实体
一个段落-步骤
一个完整的实体链接方法通常包括 4 个步骤
① 实体提及识别
即
利用字符串比较、 机器学习等方法
从给定的文本序列中识别出描述实体的单词或短语
② 候选实体生成
即
根据已识别出的实体提及
从海量的实体集合中选出有限数量的候选实体
可以划分为3种方法
基于字符串匹配
基于资源扩展别名
基于先验概率计算
③ 候选实体排序
即
结合上下文语境
对实体提及和候选实体进行相似度判断
并按照相似度得分进行排序
可以划分为
基于统计的方法
基于深度学习的方法
④ 不可链接提及预测
由于知识图谱的不完备性
部分实体
在知识图谱中并不存在
因此
需要判断
实体提及是否链接到不存在的实体
三个段落-近期的代表性方法
BLINK [Wu et al., 2020]
是由 Facebook 提出的一种两阶段零样本实体链接模型
其
首先使用双向编码器
来编码文本提及和实体描述
并使用两个独立的 BERT
来分别获得提及和实体的表示向量
将二者的点积作为候选实体得分
接着,使用一个基于 BERT 的交叉编码器
来同时编码提及和实体
随后接入一个线性层
计算出最后的实体得分并进行排序
取得分最高的候选实体
作为预测的链接结果
CHOLAN [Ravi et al., 2021]
使用 Transformer 编码器来进行端到端的实体链接
其架构如图 7 所示
CHOLAN 认为
现有的预训练模型(例如 BERT)
虽然
在大型语料库上进行了 预训练
但是
在具体任务中仍需考虑额外的上下文信息
CHOLAN
首先利用 BERT
识别输 入句子中的提及
然后利用工具 Falcon [Sakor et al., 2019] 和 DCA [Yang et al., 2019b]
为每个提及生成为知识库中的实体候选
最后将实体提及、句子、实体候选以及 Wikipedia 中关于实体的描述信息拼接起来输入另一个 BERT
从而预测出链接的实体
REL [van Hulst et al., 2020]
利用先进的命名实体识别模型 Flair [Akbik et al., 2018]
来识别实体提及
针对候选生成
REL
首先利用 Wikipedia 和 CrossWikis 的超链接数量
来预估每个(提及,实体)对的先验概率
然后根据该概率
选取排名靠前的实体作为候选实体
之后,再利用相似度度量函数
从提及的附近单词中选取相似度最大的几个实体作为候选实体
最后, 基于先验的重要程度、上下文相似度以及文档中其他实体链接的一致性
对所有候选实体进 行排序与消歧
EntQA [Zhang et al., 2022]
将提及检测和实体消歧两个子任务的顺序进行颠倒
并将整个链接任务建模为一个开放域问答任务
EntQA
采用 Retriever-Reader 的框架
利用知识图谱中实体的标题和描述来建模实体
Retriever 模块
计算文本片段和实体之间的相似性评分
快速地生成多个候选实体
Reader 模块
以文档、文本片段和候选实体为输入
建模出
候选实体对应于提及的概率
以及该候选实体为正确实体的概率
进而预测出
实体链接结果
5. 工具软件和评测数据集
工具软件
就本体匹配而言
一些常见的本体匹配工具和系统
可以从 OAEI(Ontology Alignment Evaluation Initiative)网站上获得
面向实体对齐
OpenEA
是一个最新的基于表示学习的实体对齐开源软件库
总体框架如图 8 所示
目前集成了 12 种代表性实体对齐方法
同时
它使用了一个灵活的软件架构
可以较容易地集成
大量现有的表示学习模型
另一个类似的开源软件库是
EAkit
面向真值发现
CrowdTruthInference
集成了 17 种真值推断算法
支持 3 种类型任务的真值推断
是否判断
单项选择
数值估计
评测数据集
标准的评测数据集
对于知识融合也十分重要
它们提供了一个横向比较各种方法性能优劣的平台
随着知识融合研究的蓬勃发展
除了传统的 OAEI 评测数据集
也出现了一些新的数据集
① 面向实体对齐
DBP15k 数据集
包含 3 个从多语言版本 DBpedia 构建的跨语言数据 集
分别是
中文到英文
日语到英文
法语到英文
DYW100k
包含两个从 DBpedia、Wikidata 和 YAGO3 抽取出的大规模数据集
DBP-WD
DBP-YG
由于上述这些数据集缺乏悬挂实体[Sun et al., 2021]
一个新的基于多语言版本 DBpedia 的实体对齐数据集 DBP 2.0 被构建
② 实体链接技术的重要性和实用性得到了工业界和学术界的广泛关注
通过 AIDA、 AQUAINT、ACE 等评测竞赛构建了
AIDA CoNLL-YAGO、TAC KBP 等经典数据集以及 WNED-CWEB、WNED-WIKI 等新数据集
同时也催生出
TagMe [Ferragina & Scaiella, 2010]、AGDISTIS [Usbeck et al., 2014]、REL [van Hulst et al., 2020]等优秀的开源实体链接框架
③ 另外,一批公开的面向图像、文本、数值等不同领域和任务类型的真值发现数据集
可以从如下网站访问:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowddata。
四、技术展望
预训练语言模型在自然语言处理领域中取得了巨大成功
受此启发针对大规模知识图谱进行预训练成为了未来的一个潜在研究方向
预训练得到的知识同样可以迁移至下游诸多任务
例如在实体对齐中
大规模知识图谱的表示学习可以得到实体的通用知识信息
一定程度缓解了下游实体对齐中知识不充分的问题
如:实体缺失部分模态信息
同样地,在多语言实体链接中
预训练得到的高资源语言知识
可以间接帮助低资源语言的实体链接
挑战
例如:如何利用知识融合技术对异构的知识图谱进行融合
从而在更大规模的知识图谱上开展预训练很值得研究
知识融合的研究问题近年来也有了一些新设定
例如
知识可能会随着时间变化
未来的工作可以考虑
面向流式数据的动态实体对齐和真值发现技术
得到更多准确的事实
用来补充动态知识图谱
又如
也可以考虑
利用动态知识图谱表示学习技术为动态真值发现提供真值的先验知识
以提高真值发现的准确性
在评测数据集方面
现有的研究工作
主要基于一些小规模数据集进行评测
如
实体对齐的 DBP15K 数据集
实体链接的 TAC KBP 数据集
然而
这些数据集的构建已有一段时间
已经显现出一定的滞后性
同时数据集的规模较小
覆盖面较窄
与真实世界存在一定的差别
因此
未来需要考虑如何结合现阶段的研究进展
针对诸如
多模态实体对齐
复杂事实真值推断
跨语言实体链接 等新任务
开发出规模更大、质量更高的大规模评测数据集
从而更专业、更全面地评测知识融合领域的工作
0 条评论
下一页