知识图谱_5事件知识获取
2024-05-19 20:11:58 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“事件知识获取”部分:重点介绍事件抽取、事件表示学习及事理图谱构建的相关研究工作。
作者其他创作
大纲/内容
一
任务定义
、目标和研究意义
前言
信息抽取任务
随着互联网信息爆炸式的增长越来越凸显其重要性
事件抽取
旨在
将无结构化
文本中
人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素
准确地抽取出来
并以结构化的形式存储下来
以供
自动文摘、人机对话、
情感分析、话题检测
等自然语言处理上层技术
的使用和用户方便的查看
本章
重点介绍
事件抽取、事件表示学习及事理图谱构建的相关研究工作
任务定义
概述
根据美国国家标准技术
研究所组织 ACE 的定义
事件的构成
① 事件触发词(Trigger)
② 描述事件结构的元素(Argument)
事件抽取任务
事件类型识别
触发词
是能够触动事件发生的词
是决定事件类型的最重要特征词
一般情况下
事件类型识别任务需要预先给定待抽取的事件类型
对于每一个检测到的事件
还需给其一个统一的标签
以标识出它的事件类型
举例
ACE 2005/2007 定义了 8 种事件类别以及 33 种子类别
事件元素识别
事件的元素
是指事件的参与者
举例
ACE
为每种类型的事件制定了模板
模板的每个槽值对应着事件的元素
公开评测和数据集
国际评测和
相关语料资源
相关语料资源
背景
说明
最早开始信息抽取评测的是
由美国国防高级研究计划委员会资助的
MUC 会议(1987~1998)连续举办七届
正是有了 MUC 会议的大力支持
信息抽取的研究达到了高潮
随后 MUC 会议停办
两年后美国国家标准技术研究所组织 ACE 会议
MUC 会议
不仅举办论文宣读,poster 展示等形式的学术交流活动
还额外组织多国参加消息理解评测比赛
ACE 会议
目前该会议已经成功举办八次信息抽取评测(2000~2008)
MUC
每一届 MUC 会议
都会针对某个特定的场景
提供训练语料和测试语料
并且还组织大量人力标注语料
供参赛者进行训练和测试
在最开始的四届评测中(MUC-1 到 MUC-4)
只提供英文语料
随着
非英语系国家的加入
MUC 会议逐渐认识到多国语言的重要性,
在第五届评测会议(MUC-5)中增加了对日文的评测
作为全世界使用人数最多的汉语
未能入选 MUC 会议应该算是一种遗憾
因此第六届评测会议(MUC6)
中增加了中文的评测
从已发表的研究来看
MUC-6 语料
使用的最多
一方面是因为中文语料的引入
另一方面是因为有了前五届的积累,
语料的标注愈发正规和成熟
ACE
两年后
ACE 会议接力 MUC 会议
继续组织信息抽取的评测
ACE 会议
从早期只有英语、阿拉伯语和中文的语料
发展到现在融合了西班牙语系的评测语料
虽有补充
但每年补充的
语料幅度不大
ACE 2005 年的中文评测语料
仅有 633 篇文章,共计 30 万词左右
而ACE 2007 语料并没有任何的增加,基本上是沿用 2005 的语料
其他
卡耐基梅隆大学
标注了 485 个电子板报构成的学术报告通知数据集:其中包含报告人、时间、地点等相关信息
国内的
北京语言大学
也标注了 4 类突发事件(地震、火灾、中毒、恐怖袭击)
文本,每类事件标注 20 篇文本,共计 80 篇突发性事件语料
评价方法
MUC
的
MUC会议,
对系统总体性能的评价
是通过衡量该系统的
各个子任务的抽取结果来反映的
MUC的评价指标
准确率 (Precision, P)
召回率 (Recall, R)
F值 ( F-Measure )
MUC会议的评价标准
相对而言比较简单、直观、透明、易于理解
ACE
的
ACE
在 MUC 的基础上采用了
基于错误代价的评价策略
对系统的各部分错误赋予一定的权重分值
且不同的错误对应不同的权重分值
然后从最大分值中减去错误的分值
通过对各个子任务分值的叠加
得到系统整体性能的分值
因此系统的
各个子任务都会影响最后的得分
如:事件识别与跟踪 (VDR) 的评价体系中,ACE 官方认为事件元素识别的还会对系统的影响最大,因此,赋予,事件元素识别错误的惩罚分值也最高
该评价体系
还可单独看评价当前测试模块的结果,
不考虑其他模块的影响
其中
由此可以看出,
系统的得分有两部分计算所得
① 一部分取决于
事件属性的识别
② 另一部分取决于
事件元素的识别
只是这两部分所占最后总分的权重会有所不同
二
研究内容和关键科学问题
内容
事件知识获取
是自然语言处理领域
一项非常具有挑战性的工作
当前的研究热点
已经不局限于对于句子级事件类型的识别以及元素的抽取
其研究内容变得越来越丰富
包括但不限于
篇章级事件抽取、事件表示学习、
事件/事理知识库构建、事件预测等研究任务
三
技术方法和研究现状
1 事件模式归纳
说明
通常情况下
事件抽取任务的事件类型
以及每种事件类型对应的事件论元角色是预先定义好的
如:ACE 2005 评测共包括了 8 大类 33 小类事件,
每类事件都定义了一定数量的事件论元角色
然而
通过人工归纳
并定义事件类型及其所含事件论元角色
不仅需要各个领域的专家知识
还需要耗费非常大的时间和人力成本
因此
如何自动发现新的事件类型
以及定义相应的事件论元角色
有着重大的社会价值和巨大的挑战性
本章介绍
自动归纳事件类型
及事件论元角色的研究
包括
任务定义以及相关解决方法
这种任务一般被称为
事件模式自动归纳
事件模式自动归纳
概述
事件模式自动归纳
简称
事件模式归纳(Event Schema Induction)
指从无标注的文本中
学习复杂事件及其实体角色的高级表示任务
分类
① 模板型事件模式自动归纳
主要建模事件的类型及对应的事件论元角色
归纳出的事件模式
可用于指导事件抽取
② 叙述型事件模式自动归纳
主要建模事件之间的关系
狭义上讲
模板型事件模式
即描述某类事件的通用模板
包括
该类事件的事件类型
其对应的事件论元角色
如
对于“选举”事件的
事件模式来说
事件类型为
“选举”
相应的事件论元角色包括
“日期”、“地点”、“胜者”、“败者”、“职位”
基于概率图的事件模式归纳
一个段落
概率图模型
概念
(Probabilistic Graphical Model)
是指
利用图表达概率相关关系的一类模型方法
来表示模型相关的一些变量的联合概率分布
是一种比较通用的
对于不确定性知识的表示和处理方法
贝叶斯网络、马尔科夫模型、
主题模型等基于概率图的方法
也应用于各种自然语言处理问题中
研究方法
基于端到端的
概率模型
可以对隐含的事件结构进行建模
将事件类型及事件论元角色建模
并表示为概率模型的隐变量
进一步对事件类型的隐含表示进行较好的建模
可以得出不同类型事件的聚类
在解决事件模式归纳任务时,
很多学者借鉴了主题模型的方法,
加以利用和改进后应用到这一任务上
主题模型
概念
(Topic Model)
是
以无监督学习的方式
对文章的隐含语义结构进行聚类的统计方法
其常被用于
文本收集、文本分类与聚类、降维等研究中
常见的主题模型
隐含狄利克雷分布
一个段落
主题模型
主要探索语料中主题与词分布的关系
隐含狄利克雷分布
采用
贝叶斯流派
的思想
认为模型中需要估计的参数
不是常数
而是服从狄利克雷分布
的随机变量
在观测语料库
中的样本后
再对
先验的狄利克雷先验分布
的参数加以修正
进而
得到后验分布
整个
语料库的
生成过程
可以看为
对语料库中的每一篇文档
获取到主题分布和词分布
然后从主题分布和词分布中
对主题和词进行采样
隐含狄利克雷分布方法
需要求得主题分布和词分布的期望
所以可通过吉布斯采样等方法
不断迭代计算获得
主题分布和词分布的期望值
在给定主题数量
这个超参数的前提下
主题模型背景下的文档聚类
可以很好地根据文章主题
将文档分成不同的类型
简单来说
主题模型假设语料库中
每个文档的主题
服从一定的分布
而对于每个主题
每个词语也服从一定的分布
因而
可通过文章中词语出现的概率
计算其属于某种主题的概率
类似地
对于
事件模式
可以类比认为语料库中
文本所包含的事件类型也服从一定的分布
每个事件类型中
每个事件论元同样服从一定的分布
由此
事件模式归纳任务
可以看为对事件类型、事件论元词
等分布的期望计算过程
一个段落
受启发于上述主题模型
Chambers 等人
[Chambers & Jurafsky 2011]
在 2011 年尝试将
朴素的隐含狄利克雷分布
方法用于聚类事件
尽管在其研究工作中
证明基于词汇距离的层次聚类
在聚合事件的效果上会更佳
但这种尝试
为事件模式归纳工作打开了思路
2013年Cheung 等人
[Cheung et al. 2013]
将隐马尔科夫模型引入框架归纳
(frame induction)研究工作
将框架、事件、事件参与者
看做隐变量并学习其中的转移过程
同年,Chambers
[Chambers 2013]
首次将基于概率图
生成模型的方法
应用于事件模式归纳
通过实体的共指将事件论元链条化
并同时考虑语料中词汇的词法与句法关系
使生成模型首先选择谓词而后预测其他的事件论元
实现了比隐马尔科夫更好的性能
并且只需要更少的训练数据
但是其上述工作
只采用了实体的核心词(head word)来代表实体
然而忽略了
同样会传递重要信息的
对实体修饰限制的形容词等词
所以 Nguyen 等人
[Nguyen et al. 2015]
在其 2015 年的工作中认为,
前人工作仅仅依靠实体核心词进行
事件类型或事件论元角色聚类的方法
——会导致一些语义不明确的词汇所对应类型难以区分
如:“士兵”在
“袭击”事件中
可能存在
“士兵”是施事者
也有可能是
受事者的上下文
因此引入实体核心词周围的
上下文——来实现对实体的消歧
近年来
深度神经网络的广泛应用
也同样吸引了事件模式归纳工作的学者
Liu 等人
[Liu et al. 2019]
在 2019 年
将基于神经网络的方法
引入概率图模型
利用预训练语言模型和神经变分推断
并同时考量了
新闻数据集中天然存在的冗余报道
提升了事件模式自动归纳的
连贯性和模式匹配指标
基于表示学习的事件模式归纳
一个段落
内容引入
在深度学习被广泛应用的当下
神经网络拥有强大的表示能力
可以表示任意的文本
因此
通过神经网络
可以对词语、事件或文本
进行稠密的向量表示
基于词语、事件或文本等的表示
可实现事件类型和事件论元角色
的聚类(自动归纳)
相关研究
在向量化表示
前
早期的一些研究基于词语共现的统计学方法
例如:在 2013 年 Balasubramanian 等人
[Balasubramanian et al. 2013]
通过 Open IEv5 工具抽取得到
关系三元组(元素 1,关系,元素 2)
并通过共现统计得到事件模式
在向量化表示
被提出后
自然语言的向量化表示
在比较文本之间的相似度、
计算文本间的相关性的效果上
相比独热编码
有着显著提升
而对于
聚类同类事件
将事件和事件论元通过向量表示后
计算事件或者是事件论元之间的相似度
是很直观
的想法
同时
同一事件中的各种论元在这一事件中共现
不同事件中同一论元也可能多次存在
因此
所有论元
作为节点
若在同一事件共现
则可形成节点间的边
进而可以组成一张图
如
对上述图结构进行分割
每个分割后结构可视为一个事件模式
不同事件中同一论元也可能多次存在
在这样的思路下,
Sha 等人 [Sha et al. 2016]
于 2016 年借用图像分割
的归一化分割的方法
实现对事件论元节点的聚类
此外模型通过词嵌入以及
点互信息计算实体间的内部相关性
并通过句中的存在性约束
同时抽取模式和槽信息
在自然语言处理
的多年发展过程中
语言学家等领域专家
对自然语言建立了相对完备的知识库
其中包括了
谓词的各种语义角色信息
Huang 等人 2016 年
[Huang et al. 2016]
利用流水线式的方法结合上述
外部知识库和自然语言处理工具等
实现触发词与事件论元的联合聚类
并通过距离度量选择中心词
作为事件类型名
并从外部信息中选择事件论元角色名
事件图模式归纳
一个段落
事件图模式
是
在 2020 年由 Li 等人 [Li et al. 2020]
提出的一个新研究任务
既往的
事件模式归纳
仅仅关心同一个事件类型下的事件模式
然而在实际的文字信息
尤其是新闻信息
会包括多于一种类型的事件
而同篇文章中的不同类型的
事件会共享一些事件论元
事件图模式
即针对两种事件类型
构建一篇文档的事件模式
路径的有向无环图
图中存在
两个事件类型节点
分别指向其事件中
存在的事件论元节点
若干事件论元节点
它们之间通过一些关系连接
继而
从一个事件类型节点出发,
到另一个事件类型节点停止
可以得到若干路径
Li 等人
[Li et al. 2020]
首先使用现有的
信息抽取工具或者是人工标注的方式
得到实体、实体间的关系,
事件以及事件论元,进行实例图的构建
然后经过处理
得到显著的且连贯的路径
接着训练一个路径语言模型
(Path Language Model)
实现对某一路径进行打分
某一路径的得分构成:
自身得分和邻居路径得分的加权
最后对于两个不同的事件类型
他们选取路径得分前 K% 的路径
来构成两个事件类型之间的图模式
Li 等人
[Li et al. 2021]
在 2021 年进一步提出
时间复杂事件模式 的新概念
一种基于图的模式表示
包括事件、时间元素、
时间连接和事件论元关系
并且他们发布了一个
新的事件图模式学习的语料库
人工事件图模式的黄金标准
最后通过模式匹配和实例图的
复杂度进行内在评估
证明了他们的概率图模式
与线性表示相比拥有更高的质量
2 事件识别和抽取
句子级事件识别和抽取方法
四个主要阶段
(1)早期发展阶段
(上世纪 90 年代之前)
以语言学家或领域专家
手动编写规则和模板为基础的
【基于知识工程的方法】的信息抽取
代表人物
Riloff、Yangarber
(2)90 年代初到 2005 年
这段时间研究者们
在不断反思基于规则的信息抽取系统的弊端:
很难胜任大规模复杂类型数据集上的信息抽取任务
因此
【基于统计和机器学习的方法】被提出
并开始在信息抽取领域广泛使用
(3)2005 年开始
以 Heng Ji 为代表的
一系列信息抽取研究
集中在【跨文档事件抽取】方面的研究
这种方法为信息抽取系统
引入了更多的背景知识和语义知识
使得该系统功能更加丰富和智能
(4)为了克服限定域事件抽取类型、
数目有限且需要固定的模板槽等局限性
2007 年华盛顿大学 OrenEtzioni 等人
提出了【开放域信息抽取】方法
基于模式匹配方法的事件抽取
模式
是对信息表述的一种描述性抽取规则
分为
平面模式
主要是基于词袋(bag-of-words)等字符串特征构成模式
由于不考虑相关句子结构和语义特征,因此被称为平面模式
结构模式
是相对于平面模式而言
该模式更多的考虑了句子的结构信息,融入句法分析特征
采用模式匹配方法的事件抽取系统工作流程基本上要分两个步骤
① 模式的获取
② 模式的匹配
在模式的挖掘和构建过程中
非常重要的是:
要找到高质量的模式
使得挖掘回来的模式
既能:准确地召回事件所涉及的事件元素
又:不过多的引入噪声
在应用该方法进行抽取前
会将挖掘回来的模式进行打分排序
质量高的模式会获得一个更高的分数
从而在进行匹配时会优先进行匹配
该方法
如果需要获得比较高的召回率
需要挖掘出尽可能多的模式
并且将大部分的模式都用于事件元素的抽取
但是这样做的副作用
排在后面的质量
不是特别高的模式
在提高了召回率的同时
也会抽取出一些无关的噪声数据
从而降低了事件元素抽取的准确率
相关研究
提出者
提出的系统或模板
内容
Riloff 1993 年
[Riloff 2013]
提出了
AutoSlog 系统
背景
基于知识工程的信息抽取系统在当时看来虽然取得了很大的成功
但是其中有一个很大的问题:这种方法过于依赖人工构造的领域词典
然而这些领域词典的构建过程并不是十分简单甚至会花费大量人力物力
因此
AutoSlog 系统
通过 13 个启发式方法获得 13 个模板
然后再用这些模板去匹配文本
从而自动构建出领域词典
值得一提的
AutoSlog 系统是世界上第一个使用机器学习方法进行信息抽取系统模式获取的系统
Kim 和 Moldovan 1995 年 [Kim & Moldovan 1995]
提出了 PALKA 系统
这套系统
也是基于人工标注语料的信息抽取模式学习系统
成功的融入了 WordNet 词典语义信息
从而使其更加擅长处理开放域信息抽取问题
而不仅仅局限于特定域的信息抽取
Riloff 和 Shoen1995 年
[Riloff &Shoen 1995]
[Riloff &Shoen 1995]
在 AutoSlog 系统的基础上
提出了 AutoSlog-TS 系统
提出了 AutoSlog-TS 系统
这个系统与 AutoSlog 系统最大的不同或改进就在于,
AutoSlog 系统
需要人工标注的语料作为训练语料
然而构建这种语料时也是需要大量时间的
而 AutoSlog-TS 系统
不需要人工标注的语料
它仅仅需要人工把语料进行一个分类即可,最终的结果与AutoSlog 系统相当,却节省了大量人工标注工作量
Joyce Yue Chai 1998 年 [Joyce 1998]
提出了 TIMES 系统
是一个基于 WordNet 和标注语料的信息抽取模式学习系统
优
WordNet 与人工标注语料共同使用确实起到了很好的效果
其系统抽取结果要好于以往的信息抽取系统
并且对于特定域与开放域语料均可以处理
缺
但是由于需要作为输入的外部资源过多
也限制了其应用
Yangarber 2001 年
[Yangarber 2017]
提出了 ExDisco 系统
这个系统是基于种子模式的自举信息抽取模式学习系统
系统
首先给定一个初始化的手工构造质量较高的种子模板
然后根据已有的模板在语料库上增量式的学习新的模板
经过几轮迭代后就获得了大量高质量模板
姜吉发 2004 年
[姜吉发 2004]
在其博士论文中使用了一种称之为“GenPAM”的模板学习方法
优势
完全的无指导学习模板
对于标注语料几乎没有需求
步骤
这里人工干预的部分在于
给出要抽取的事件类型、事件元素及其所属角色
最后再人工地对模板的抽取质量进行评价
经过以上步骤
事件抽取模板便可以自动学习出来
这对于模式学习来讲,大大减少了人工工作量
基于机器学习方法的事件抽取
背景
随着各大企业逐渐认识到信息抽取的重要作用,以及它们对信息产业的迫切需求,大力推动了相关领域语料库的构建
有了这些语料库后
人们开始将研究重点转向基于统计和机器学习的方法进行信息抽取
一些经典的统计模型被引入
这些模型有
隐马尔科夫模型(Hidden Markov Model,HMM)、朴素贝叶斯模型(Naïve Bayes Model, NBC)、最大熵模型(Maximum Entropy Model,ME)、最大熵隐马尔科夫模型(Maximum Entropy Hidden Markov Model, MEMM)、支持向量机模型(Support Vector Machine,SVM)等
这种基于统计模型的机器学习方法
将信息抽取看成是分类问题
其重点在于
挑选合适的特征使得分类器更加准确
另外
核(kernel)的引入
也使得分类器的效果有了很大的提升
也有研究者分析和开发新的核
相关研究
H. L. Chieu 和 H. T. Ng 2002 年
[Chieu & Ng 2002]
在进行事件元素抽取的研究中,大胆尝试引入【最大熵分类器】,将事件元素的识别看成是一个分类问题
这套系统在 MUC 2002 评测中讨论发表会事件和工作交接事件抽取任务中获得了较好的结果
Chieu 在他的分类器中
采用了 unigram、bigram、命名实体、短语等简单特征
最终在卡内基梅隆大学标注的语料库上进行实验验证,取得了 86.9%的 F 值,超过了当时的最好结果
Ralph Grishman
[Grishman 2005]
参加了 ACE 2005 的事件抽取任务评测,在参赛的系统中他们使用了【最大熵模型】
他们的系统共有四个模块(即四个分类器)
(1)基于事件触发词分类的事件类型识别模块
(2)事件元素识别模块
(3)事件元素角色识别模块
(4)整合已有的事件类型识别模块,事件元素识别模块,事件元素识别模块,并依据各个模块的输出结果最终判定输入的句子是否为事件
Ahn 2006 年
[Ahn 2006]
在提出了进行事件触发词及类别识别和事件元素识别这两个事件抽取主要任务的研究中,尝试性地在其事件抽取系统中【整合了 Timbl 和 MegaM 两种机器学习方法】
Ahn 把事件类型识别看成事件触发词的识别
首先
对输入的句子进行分词(就英文而言只需根据空格分词),对每一个词抽取相关的词法特征、上下文词特征、WordNet 词典特征以及上下文相关实体及其类型等特征
然后
使用 MegaM 分类器
对当前词进行二元分类来判断其是否是触发词
如果当前词被判定为触发词
则使用多元分类器 Timbl 指定当前词所属的事件类别及子类别
Ahn 的系统在 ACE2005 英文语料库上进行测试
实验结果显示事件类别识别的 F 值达到了 60.1%
这一结果超过了分别单独使用 MegaM 和 Timbl 分类器的方法
另外,针对事件元素识别任务
这套系统
把句子中出现的每一个实体
都看作是候选事件元素,抽取与实体相关的词法特征、事件属性特征、实体的修饰特征、依存句法路径特征等
并为每一种事件
训练一个分类模型,专门用来确定事件元素的角色。
该系统在ACE 2005 英文语料上进行事件元素识别的测试
结果为:F 值达到了 57.3%。
Z. Chen 2009 年
[Chen 2009]
打破原有的将事件抽取看做分类问题的思维模式
而是将事件类型识别及元素识别看做序列标注问题,采用【最大熵隐马尔科夫模型】(MEMM)
选择一般特征和中文独有的特征
在 ACE 2005 中文语料上测试
其 F-Measure 高于当前最好的中文事件抽取系统
基于跨文档方法的信息抽取
背景
传统的基于模式匹配的方法与基于统计机器学习的方法
实际上都是在做句子级的信息抽取,这里很少考虑篇章和丰富的背景知识
相关研究
在基于“One Trigger Sense for Cluster”
和“One Argument Role for Cluster”的思想基础上
和“One Argument Role for Cluster”的思想基础上
Heng Ji
[Heng & Grishman 2008]
于 2008 年提出了跨文档事件抽取系统框架
在这个框架下
对于一个句子级的抽取结果
不仅要考虑当前的置信度
还要考虑与这个待抽取文本相关的文本对它的影响
作者共设置了 9 条推理规则定量的度量相关文本对当前抽取结果的影响
从而帮助人们修正原有的句子级事件抽取结果
这个系统最后在 ACE 2005 英文语料上进行评测
事件类型识别最终 F 值达到 67.3%
事件元素识别最终 F 值达到 46.2%
均超过了目前最好的英文事件抽取系统
后继研究
Heng Ji 的这项研究一经发表后,引起了很多人的关注
后来学者借鉴她成功的引入篇章和背景知识的思想
相继出现了
跨语言事件抽取系统 [Heng 2009]
跨文本事件抽取的改进 [Liao & Grishman 2010]
跨实体事件抽取系统 [Hong et al. 2011] 等相关研究
开放域事件抽取
背景
为了解决大规模语料信息抽取的问题
开放域事件抽取任务被首次提出
其主要抽取的是事件三元组(施事,事件词,受事)
相关研究
华盛顿大学人工智能研究组
做出了很多杰出的工作
并且开发出了一系列开源信息系统:TextRunner,WOE 和 ReVerb 等
TextRunner
是第一个对于关系名称进行抽取的开放域信息抽取系统
它
首先利用启发式规则从语料库中获取句法特征
然后训练分类器判断两个元组之间是否存在某种语义关系
再利用海量互联网数据帮助评估抽取到的三元组是否正确
WOE
充分利用 Wikipedia 中大量人工填写的 InfoBox 信息,从中获取大量训练语料
从而训练信息抽取器抽取更多的信息三元组
ReVerb
在 TextRunner 基础上提出了句法和词汇的限制条件
进而提高了三元组的抽取精度,使其更加实用
并且值得一提的是
ReVerb 用动词词组描述两个元组之间的语义关系
这非常符合事件的定义
篇章级事件识别和抽取方法
背景与必要性
篇章级事件抽取任务的目标
在文档中识别预先指定类型的事件及相对应的事件元素
近年来
随着
金融、法律、公共卫生等各个领域数字化进程的发展
文档级事件抽取
已成为这些领域业务发展的越来越重要的加速器
以金融领域为例
持续的经济增长见证了数字化金融文本的爆炸式增长
例如:对特定股票市场中的大量金融公告文档进行文档级事件抽取,
能够帮助人们提取有价值的结构化信息,预知风险并及时发现获利机会
能够帮助人们提取有价值的结构化信息,预知风险并及时发现获利机会
同时
为促进信息检索和文章摘要等下游应用的发展
对文档级的事件抽取技术展开研究也是必不可少的
相关研究
相关研究1
传统的基于模式匹配的方法与基于统计机器学习的方法
实际上
都是在做句子级的信息抽取
很少考虑篇章和丰富的背景知识
在基于“One Trigger Sense for Cluster”和“One Argument Role for Cluster”的思想基础上
Heng Ji 于 2008 年提出了跨文档事件抽取系统框架
.......
相关研究2
此外,最近的部分工作探索了采用 Pipeline 框架来解决文档级事件抽取任务
该结构
为每种类型的事件及事件元素训练单独的分类器
并通过上下文来增强模型性能
以学习事件类型识别及事件元素抽取策略
GLACIER [Patwardhan & Riloff 2009]
在概率模型中
同时考虑了跨句信息以及能够作为依据的名词短语
以提取角色填充物
TIER [Huang & Riloff 2011]
则提出
首先使用分类器确定文档类型
然后在文档中识别事件相关的句子并填充事件元素槽
2012 年 Riloff 等人[Huang & Riloff 2012]
则提出了一种自下而上的方法
该方法
首先
根据词汇句法模式特征
来识别候选的事件元素
然后
通过基于语篇特征的分类器
来移除与事件无关的句子中的候选事件元素
上述方法
存在跨不同 Pipeline 阶段的错误传播问题
同时需要大量的特征工程
(例如,用于候选事件元素发现的词汇句法模式特征、用于在文档级别检测与事件相关的句子的语篇特征)
而且这些特征
需要针对特定领域手动设计
又有一定的领域专业知识门槛
然而
神经端到端模型
已证明在命名实体识别、ACE 句子级事件抽取等句子级信息提取任务上表现出色
因此
Du 等[Du et al. 2020]
于 2020 年提出将文档级事件抽取任务作为端到端神经序列标注任务来解决
作者认为
文档级事件抽取任务无法利用句子层面的抽取方法得到解决
其最主要的原因是
一个事件的论元分散在了不同的句子当中
因此
如何获取跨句子信息就显得较为重要
由于文档的长序列特点
捕获长序列中的远距离依存关系是文档级神经端到端事件抽取的一项【基本挑战】
该工作
对输入的上下文长度与模型性能之间的关系进行了研究
找到了最合适的长度来学习文档级事件抽取任务
此外
该工作还提出了一种新颖的多粒度特征抽取器
以动态汇总在不同粒度(例如句子级和段落级)学习到的神经表示所捕获的信息
效果
在 MUC-4 事件提取数据集所提出的方法上
比以前的工作表现更好
文档级事件抽取的另一个主要障碍是培训数据的缺乏
由于基于远程监督技术来自动生成训练数据的方法
已取得了大量进展
一些研究试图通过远程监督来缓解该问题
例如
考虑到经典的事件抽取任务所要求的触发词信息在知识库中并没有出现
Chen 等[Chen et al.2017]采用额外的语言资源及预先定义的词典来标记触发词
在金融领域
文档级事件抽取技术
可以帮助用户获得竞争对手的策略,预测股票市场并做出正确的投资决策
然而在中文金融领域中,没有待标记的文档级事件抽取语料库
Yang等 [Yang et al. 2018]
则针对中文金融领域文档级事件抽取的
文档级建模及数据缺乏
两大挑战展开研究
该工作提出了 DCFEE 框架
该框架
将文档级事件抽取任务视为序列标注任务
基于远程监督技术自动生成大量带伪标签的数据
并通过关键事件检测模块和事件元素填充策略
从财务公告中提取文档级事件
挑战及研究
对于财务文档以及许多其他业务领域中的文档而言,
事件元素分散和多事件的特点给文档级事件抽取带来了挑战
事件元素分散和多事件的特点给文档级事件抽取带来了挑战
① 挑战1
一个事件的事件元素可能散布在文档的多个句子中
② 挑战2
一个文档可能包含多个事件的信息
Zheng 等 [Zheng et al. 2019]
针对上述挑战提出了一种新颖的端到端模型 Doc2EDAG
Doc2EDAG 的关键思想
将事件信息转换为基于实体的有向无环图
该形式可以将原本的表格填充任务转换为更易于处理的多路径扩展任务
为了有效地生成 EDAG
Doc2EDAG 对文档中的实体基于上下文进行编码
设计了一种适用于路径扩展任务的存储形式
此外该工作
还改进了文档级事件抽取的标记体系,删除了触发词标记
这种无须触发词的设计
不依赖任何预先定义的触发词集或启发式方法来筛选触发词
并且不改变文档级事件抽取的最终目标
其整体模型分四个模块
① 预处理模块
利用 transformer 编码器将输入文本转换为词向量序列
并添加 CRF 层,利用经典的 BIO 标注方案训练模型进行实体识别
② 文档级信息融合模块
为了有效地解决论元分散的挑战,利用全局上下文来更好地识别一个实体是否扮演特定的事件角色
该模块的训练目标
上下文对预处理中提取的实体提及进行编码,并为每个实体提到的内容生成实体向量
为了提高对文档级上下文的认识,作者使用了第二个 transformer 模块,以方便所有实体和句子之间的信息交换
模型中还增加了句子的嵌入位置来指示句子的顺序
在这个模块之后
获得了文档级上下文相关的实体和句子表示
并对每种事件类型进行了事件触发分类
③ 文档级信息记忆模块
考虑到依次生成基于实体的有向无环图时必须同时考虑文档级上下文和路径中已经存在的实体
采用了一种内存记忆机制
更新图结构时需要追加已经识别的实体嵌入
④ 路径扩展模块
在扩展事件路径时
对每个实体进行二分类
结合当前路径状态、历史上下文和当前角色信息判断
是否对当前实体进行展开
在由大规模的财务公告组成的真实数据上Doc2EDAG 的表现超过了以往的工作
3 事件关系获取
说明
事件
是由特定人、物、事
在特定时间和特定地点
相互作用的客观事实
然而
事件的发生
往往不是孤立现象
一个事件的发生 必然存在与之相关的其他事件
如:与该事件相关的
原因事件、结果事件、并发事件等
事件关系
概念
事件与其相关事件之间相互依存和关联的逻辑形式
内容
抽取以事件为主题元素
通过分析事件文本
的结构信息及语义特征
挖掘
事件之间深层的逻辑关系
进而辅助
事件的衍生、发展
以及信息的推理与预测
本章
主要对几种公认的
事件关系进行介绍
即
事件因果关系
事件时序关系
子事件关系
事件共指关系
事件因果关系获取
事件因果关系
意义
不仅是
语篇理解的重要组成部分
对于问答等
各种自然语言处理应用
也具有重要意义
包括
① 原因
② 结果
形式
显式因果关系
可以包含
相关的触发词
如:原因(cause)、结果
(effect)、结果(consequence)
模糊的触发词
如:生成(generate)、
诱导(induce)等
隐式因果关系
比较复杂
涉及
基于语义分析
背景知识的推理
例子
“飓风卡特里娜星期一早上沿着墨西哥湾海岸向
海岸肆虐。早些时候有报道说沿岸有建筑物倒塌”
这里飓风的“肆虐”
导致了建筑物“倒塌”
因此
因果关系的抽取
极其复杂和困难
该任务常用的评价指标有
准确率(Acc)
精确率(P,precision)
召回率(R,recall)
F1 值
现有工作
当前
已有工作涵盖基于
监督/无监督的抽取方法
包含针对语言模式、统计方法和监督分类器等建模方式
从文本语料中获取事件因果关系的知识
Kaplan 等人
[Kaplan & Rogghe 1991]
提出基于手工编码的、特定领域的知识推理
从文本中提取句子间隐含的因果关系
但在实际应用中较难扩展
Khoo 等人
[Khoo et al. 2000]
使用预定义的语言模式(linguistic patterns)
从商业和医学报纸文本中识别明确的因果关系
而不需要任何基于知识的推理
Girju 等人
[Girju et al. 2003]
设计出了一种自动检测表达因果关系的
词汇句法模式的方法
使用名词-动词-名词的词汇-句法模式来捕捉“蚊子引起疟疾”这样的例子
其中提到的因和果是名词,不一定是事件
Do 等人
[Do et al. 2011]
设计了一种最小监督方法
利用因果线索和事件间的统计
关联识别语境中的事件因果关系
Riaz 和 Girju 等人
[Riaz & Girju 2013]
基于 Do 等人的工作,
探究了哪些类型的知识有助于动词(事件)间的因果关系识别
他们提出了一种无监督方法,
基于一套知识丰富的度量来学习动词(事件)之间因果关系
利用这些度量标准,
能够自动生成一个知识库 (KB)
其中标识三种类型的动词对:
强因果的、模糊的和强非因果的
Hashimoto等人
[Hashimoto
et al. 2014]
提出一种利用事件的
词汇语义信息建模的有监督方法
利用该方法能够从互联网上抽取得到
如 “从事刀耕火种的农业” 导致 “加剧沙漠化” 的因果关系
这些关系可被看作是
未来可能发生的事件
进而帮助人类实现情景规划
(scenario planning)
Gao 等人
[Gao et al. 2019]
针对文档级别的
因果关系进行建模
抽取了包含句内和跨句的所有因果关系
因果具有方向性
文中仅识别
两个事件是否存在因果关系
并不对二者间的方向做判断
针对问题的改进
现有工作仅利用了标注数据
缺乏使用有助于
该任务的相关外部知识的能力
通常对新的、以前未见过的数据表现不佳
Liu 等人
[Liu et al. 2020]
提出带知识感知的因果推理机
(knowledge-aware causal reasoner)
利用 ConceptNet 引入外部知识进行推理,很大程度丰富事件表示
Liu 等人
提出指称掩码推理机(mention masking reasoner)挖掘与事件无关的基于特定上下文的模式
能够大幅增强模型处理新的,
之前未见过的数据的能力
这里基于一种假设
在包含因果关系的表述中,
往往包含事件无关的语言模式
这对识别新事件的因果关系很有帮助
在此基础上
提出细心哨兵模块(attentive sentinel)对以上两个推理机进行权衡
是一个句子级别的
两两事件间的因果抽取模型
另一种作为知识源的语言模型
除了基于外部知识库作为知识源
另一种常被作为知识源的是
被广泛使用的语言模型
Kadowaki 等人
[Kadowaki et al. 2019]
提出一种基于 BERT 的方法抽取事件因果关系,作为基于大语料进行预训练的语言模型
BERT 在预训练过程中可以学习到一些事件因果关系的背景知识
此外
在标注事件因果关系时,
关系标签的确定通常需要对多个标注结果
(来自多个标注者)依照多数投票方式确定
这种标注方式
忽略了每个标注者的独立判断结果
通过训练多个分类器
捕捉每个注释者的标注策略,结合产生的分类器输出来预测最终标签能够进一步提升模型性能
Li 等人
[Li et al. 2021]
提出预训练模型 CausalBERT
通过将因果知识注入预训练语言模型,
使预训练模型具备因果推理能力
具体地
通过设计因果
对分类任务实现为 BERT 等预训练模型
注入因果知识
Li 等人
[Li et al. 2020]
利用 CausalBank 语料,
构建正负例因果对,并采用合页损失函数作为训练目标
事件时序关系获取
事件时序关系抽取
意义
是一项重要的自然语言理解任务
对后续任务
如:问答、信息检索和叙事生成等
都有重要的作用
该任务
可以被建模为
针对给定文本构建一个图结构
图中节点表示事件
边被相应地标记为事件时序关系
已有工作
一般将该任务分为
两个独立的子任务
即
① 事件抽取
② 事件时序关系分类
这种做法
假设在训练关系分类器时
已经给定了正确抽取的事件结果
评价指标
三种
① 准确率(Acc)
② 精确率(P,precision)、召回率(R,recall)、F1 值
③ 时序意识得分(temporal awareness score)
相关研究
近年来
事件时序关系抽取
在自然语言处理领域引起了广泛关注
该任务的一个标准数据集
是基于 TimeML 标准标注的TimeBank(TB)语料
在此之后,一系列的
时序关系数据集被收集起来
包括但不限于
Bethard 等人
[Bethard et al. 2007]
利用动词从句对 TB 的扩展
TempEval1-3 数据集
TimeBank-Dense(TB-Dense)数据集
EventTimeCorpus 数据集
MATRES 数据集
同时包含时序关系和
其他类型关系的多标注数据集
如:包含事件共指关系和因果关系
现有的标注方法
现有的标注方法
均采用
事件在时序上的区间表示
令
分别表示两个事件对应的事件区间
在两个区间之间
共包含 13 种时序关系
如:之前(Before)、之后(After)、
包含(Includes)、被包含(Is included)和 同时(SImultinous)等
为了进一步缓解标注负担
一些工作经常仅使用
13 种关系约简后的集合
子事件关系获取
子事件关系
① A 是一个复杂的活动序列
大部分由相同 (或兼容的) 代理(agent)执行
② B 是活动序列中的一个
③ B 与 A 发生在同一时间和地点
这种关系
使得不同的事件间
形成了一个典型的事件序列(或脚本)
常用评价指标
BLANC
精确率(P,precision)
召回率(R,recall)
F1 值
常用评估语料
HiEve 语料
HiEve 语料:关注于新闻故事中的子事件关系
由于新闻故事中
包含大量表示不同时空粒度的真实事件
其叙述通常描述一些粗糙的具有空间、时间粒度的现实世界事件及其子事件
Glava𝑠̌ 等人
[Glava𝑠̌et al. 2014]
基于新闻故事,
提出了 HiEve 语料
一个识别事件之间时空包容关系的语料库
在 HiEve 中
叙事被表示为
基于时空包容关系
(即父事件-子事件关系) 的事件层次
事件关系主要包含
① 父子事件关系(SUPERSUB)
表示事件对中的第一个事件
在空/时间上包含第二个事件
② 子父事件关系(SUBSUPER)
和父子事件关系对称
③ 共指关系(COREF)
表示两个事件指称
表示了现实世界中的同一事件
④ 无关系(NORELATION)
表示两个事件既无空时包含,也无共指关系
语料中包含了
100 篇文档
1354 个句子,33273 个词
IC 语料
Hovy 等人
[Hovy et al. 2013]
标注了一个情报系统(intelligence community, IC)语料库
在 IC 中
包含
暴力事件领域 (爆炸、杀戮、战争等) 的文本
鉴于部分共指类型的稀疏性
语料中注释了
事件完全共指、子事件和成员关系的实例
SeRI 语料
除了新闻领域等限定域,
Ge 等人[Ge et al. 2018]
基于英文维基百科中
特有的关系模板(partof)及规则
构建一个 SeRI 语料
在 SeRI 中
包含了 3917 篇事件文章
共 7373 个候选子事件对
共包含三种关系
① 父子事件关系
② 子父事件关系
③ 无关系
可以用做从百科全书中
挖掘子事件关系的模型的训练及评估语料
4 事件表示学习
说明
背景
由于传统的 One-hot 高维特征表示方式
会使得事件特征异常稀疏
从而不利于后续的研究和应用
因此
Ding 等人提出了
两种全新的事件表示方式
第一种
离散模型
是基于语义词典对事件元素,
进行泛化,进而缓解事件的稀疏性
第二种
连续向量空间模型
则为每一个事件学习一个
低维、稠密、实数值的向量进行表示
从而使得相似的事件
具有相似的向量表示,在向量空间中相邻
离散模型
内容介绍
由于历史上发生的事件
大多数都很难以再次发生
因此会导致事件具有严重的稀疏性
离散模型的目标是
对同一事件的不同表达进行归一和泛化
如:“微软以 72 亿美元价格吞并诺基亚移动手机业务”和 “微软出资 72 亿美元收购诺基亚移动手机业务”
表达的是同一事件
为了完成这一目的
可以利用几个
广泛应用的语义词典
WordNet、HowNet
和 VerbNet 等
对事件元素
进行泛化
泛化过程
① 首先,从 WordNet 中找到
事件的施事者和受事者中名词的上位词将其泛化
如:利用“微软”的上位词
是“IT 公司”将其替换掉
② 随后,找到事件元素中的动词,并用 VerbNet 中
该动词所属类别的名词替换掉改动词,从而对其进行泛化
如:“增加”在 VerbNet 中
所属的动词类别名称为 multiply
一个事件泛化的完整例子
给定句子“Instant view: Private sector adds 114,000 jobs in July.”,可以抽取出事件(Privatesector, adds, 114,000 jobs)
将其泛化后的结果是(sector, multiply class, 114,000job)
局限性
① WordNet,VerbNet 等语义词典词覆盖有限
很多词难以在语义词典中找到相应记录
② 对于词语的泛化具体到哪一级不明确
对于不同应用可能会有不同要求,很难统一
此外
即使对事件进行了泛化
还是无法解决 One-hot 的特征表示
带来的维度灾难(curse of dimensionality)问题
如:假设词典中有 10,000,000 个词
那么就需要用 10,000,000 维特征表示一个词
由此带来的特征稀疏问题
会导致后续的应用难以取得较好结果
并且超高维度的特征空间
也会消耗大量的实验时间和空间存储
增加了计算成本
分布式表示
引入
Bengio 首先提出了为词汇
学习一个分布式表示(即 word embedding)
用低维、稠密、实数值向量表示一个词汇
为了学习这样一个词汇向量
Bengio 训练一个神经网络模型
将该词汇的大规模上下文语义信息都融入到词汇向量中
由于语义上相似的两个词汇
应该会有相似的上下文
因此,相似的词汇也应该会学习到相似的词汇向量
事件的分布式表示学习 与
词汇的分布式表示学习 的 异同
词汇的分布式表示学习 的 异同
同
动机是一样的
Ding 等人提出学习低维、
稠密、实数值事件向量表示
从而相似的事件
在向量空间中具有相邻的位置
该任务
与知识库中的
多元关系数据分布式表示学习
相近似
关系数据的
分布式表示学习
是为关系三元组 (e1, R, e2) 学习一个连续向量
其中
e1 和 e2 是命名实体
R 是这两个命名实体之间的关系类型
异
① 知识库中的
关系类型数量有限
因此
大多数关系数据的
分布式表示学习模型
都将某一个特定关系类型
用一个矩阵或者张量建模学习
然而
抽取的是
开放式事件元组
因此
事件类型是开放的,也就是无限的
这样就导致无法用一个矩阵
或张量建模某一个事件类型
为了解决这一问题,
Ding 等人
[Ding et al. 2015]
将事件词 P 也表示成与施事者 O1和受事者 O2
具有相同纬度的向量,从而摆脱了事件类型无限多的限制
② 关系的表示学习目的是
能够指出两个命名实体 (e1, e2)
是否具有某一确定的关系 R
当 R 是一个正定矩阵时
命名实体是可以互换位置的,
也就是说这时候关系是没有方向性的
然而
事件元素都是有特定角色的,
其具有很强的方向性
谁是事件的施事方,谁是受事方是不可
随便变化的,一旦改变则事件就完全不同
基于张量神经网络
引入
Ding 等人
[Ding et al. 2015]
设计了一个全新的张量神经网络
来学习事件的结构化向量表示
事件的每一个元素及其所扮演的角色
都会被显式地建模学习
概念介绍
张量神经网络
(Neural Tensor Network, NTN)
输入是词向量
输出是事件向量
可以利用 Mikolov 提出的 Word2Vec 模型中的 skip-gram 算法
从大规模的新闻语料中学习到
最初始的词向量(维度为 d = 100)
由于事件元素
可能会包含多个词汇
可采用各个词汇向量的平均值
来生成最终的事件元素初始向量
这样做的好处是
可以让无论是短语还是单一词汇都具有同样维度的向量表示
如:诺基亚移动手机业务和诺基亚
0 条评论
下一页