知识图谱
2020-12-01 14:39:58 1 举报
AI智能生成
知识图谱框架
作者其他创作
大纲/内容
逻辑架构
模式层
本体库
本体(Ontology,“元”元数据)
节点
概念
Concept
域
Domain
类型(Type)的集合,某一领域所有类型的抽象
类型
Type
具有相同特点或属性实体集合的抽象
聚类
聚类的集合
属性
Property
客观个体特征的抽象
关系
Relation
实体与实体之间关系的抽象
规则
Rule
关系推理
数据层
图数据库
事实Fact(三元组)
实体
Entity
客观个体的抽象
属性值
Value
描述实体
文本型
数值型
关系
Relation
实体与实体之间关系的抽象
实体-关系-实体
实体-属性-值
技术架构
信息抽取
实体抽取
命名实体识别 NER
Regex 正则
关系抽取
基于模式匹配的关系抽取
需要人工构造语法和语义规则
基于词典驱动的关系抽取
只能识别以动词为中心的特定关系
基于本体的关系抽取
需要编写不同的本体应对不同的任务
基于机器学习的关系抽取
有监督
特征向量
最大熵模型
SVM模型
核函数
半监督
自举Bootstrapping
标注传播算法Label-propagation
协同学习Co-learning
无监督
关系实例聚类
关系类型标记
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
属性抽取
将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
基于规则和启发式算法,抽取结构化数据
基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取
采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。
知识融合
本体构建
聚类
实体并列关系相似度计算
算法
模式匹配法
分布相似度
确定隶属(IsA)关系
实体上下位关系抽取
算法
语法模式(如Hearst模式)
概率模型
本体生成
对各层次得到的概念进行聚类,并对其进行语义类的标定(为该类的中的实体指定1个或多个公共上位词)。
实体链接
从文本中通过实体抽取得到实体指称项
实体消歧
解决同名实体产生歧义
算法
聚类
共指消解
解决多个指称对应同一实体对象
算法
C4.5决策树算法
Hobbs算法
向心理论(centering theory)
术语相似度(term similarity)
在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
知识合并
合并外部知识库,主要处理数据层和模式层的冲突
合并关系数据库
RDB2RDF
知识计算
知识推理
内容
推理属性值
推理聚类
推理关系
方法
逻辑推理
一阶逻辑谓词
描述逻辑
基于规则的推理
图推理
神经网络模型
Path Ranking算法
质量评估
知识更新
技术基础
自然语言处理NLP
中文分词
词表分词
扫描顺序
正向
逆向
双向
匹配原则
最大匹配
分词工具
庖丁解牛
IKAnalyzer
统计分词
互信息mutual information
N元文法模型N-gram model
隐马尔科夫模型hidde markov model
最大熵模型maximum entropy models MEMs
分词工具
ICTCLAS
Stanford word segmenter
两种方式常结合使用
词性标注
基于规则
按照兼类词搭配关系和上下文语境建造词类消歧规则
基于统计
计算各词性出现的概率
标注工具
Stanford log-linear
part-of-speech tagger
关键词提取
流程
1.中文分词
2.词性标注
3.去掉停用词,选出候选词(名词,动词,形容词)
4.从候选词中按规则选出关键词语或词组
基于统计的关键词提取
考虑权重
词频
共现频率
TF-IDF
算法
遗传算法genetic algorithm
支持向量机support vector machine
最大熵模型maximum entropy models MEMs
条件随机场conditional random field
机器学习
最大熵分类模型Maximum Entropy Models, MEMs
GIS算法
IIS算法
支持向量机分类模型是support vector machine SVM
技术地图
实体关系识别
深度学习
有监督
半监督
无监督
增强学习
注意力机制
实体链接
基于概率生成模型方法
基于主题模型方法
基于图的方法
深度神经网络
概率图模型
知识融合
基于字符串匹配的防范
基于多策略的方法
基于分而治之的优化
主题模型
词向量
知识推理
基于逻辑符号的方法
基于统计的方法
混合方法
表示学习
高效推理
算法
图遍历算法
广度优先
深度优先
最短路径算法
单源最短路径
Dijkstra
每对节点最短路径
Floyd
路径探寻算法
权威节点分析算法
PageRank
族群发现算法
最大流算法
相似节点发现算法
存储方式
RDF,OWL,XML
jena
图数据库
Neo4j
Titan
数据类型
关系型
作为实体存入知识图谱,它们的关系形成图谱网络
关联型(结构型)
作为记录型数据存入合适的存储中,通过链接与实体关联
属性型
作为实体的属性存入知识图谱
时态型
基于知识图谱上的时间存储中间件进行存储和查询
应用
智能语义搜索
移动个人助理(Siri)
深度问答系统(Watson)
知识点结构
线性结构
由易到难直线罗列
螺旋结构
同一基本概念在不同学习阶段反复出现
螺旋上升
理论框架式结构
知识点Schema
域
学科(知识点)
类型
小学学科(知识点)
初中学科(知识点)
高中学科(知识点)
实体
某一知识点
ID
唯一
名称
其他属性
描述
级别
1
2
3
4
元知识点
难度
基础
中档
难点
位置
教材
册
章
节
重要程度
重点
考点
易错点
掌握程度
了解
理解
掌握
关系
辈分
父
子
依赖
前置
后置
兄弟
同一个父级知识点的所有子知识点之间的权重关系
参考
一个知识点所涉及的领域与其他知识点有关,并不一定具有依赖关系
0 条评论
下一页