tmt知识图谱_实体关系抽取模型总体框架
2016-05-05 11:20:47 39 举报
TMT知识图谱的实体关系抽取模型总体框架主要包括三个部分:数据预处理、特征提取和模型训练。在数据预处理阶段,首先对原始文本进行分词、去停用词等操作,然后利用依存句法分析技术获取句子中的实体及其关系。接下来,在特征提取阶段,根据实体和关系的语义信息,结合上下文语境,构建丰富的特征表示。最后,在模型训练阶段,采用深度学习方法(如BERT、Transformer等)搭建端到端的实体关系抽取模型,通过大规模的标注数据进行有监督学习,实现对新文本中实体关系的自动识别和抽取。
作者其他创作
大纲/内容
产品字典另行设计
表示学习的语料库
自带人名识别
核心构建字典
分句切分
外文名未解决
长期迭代
1.字典2.强语言模型sklearn模型参数3.弱语言模型的模板迭代
替换为种子模板
文本预处理
高斯核SVM
若干待处理短句
提取实体关系
实体关系抽取(训练)
实体关系表达
分类器分类
记录实体关系
95机构识别模块
过滤stopwords
RL方法构建模板向量
产品名识别模块
实体关系抽取(使用)
待处理短句
sklearn训练分类器
dict4:机产字典
模板匹配模块
分类出存在关系的实体
存在关系的实体的模板
机构字典
产品名识别必然需要产品库,和权重机制(暂不能识别新产品)
l2s切分模块
种子模板替换回来
低维向量,线性不可分(数据量仍然不足)
输入文本
设计的不太好,丢失了很多信息(已解决,主要指代)
0 条评论
下一页