知识图谱_1知识表示与建模
2024-05-19 16:54:48 0 举报
AI智能生成
内容梳理自《知识图谱发展报告2022》的“知识表示与建模”部分:主要针对本体知识和规则知识的表示与建模展开三方面介绍,包括当前建模语言、建模工具以及应用实践示例。
作者其他创作
大纲/内容
一
任务定义
、目标和研究意义
任务定义
与
目标
知识
概念
是人类通过观察、学习和思考有关客观世界的各种现象
而获得和总结出的被广泛论证的正确的信息
特点
① 合理(Justified) ② 真实(True) ③ 被相信(Believed)
在人类社会中
知识表示
将人类的认知知识以特定的形式进行描述、表达和传承
人类表示知识的
形式多种多样
包括
声音、文字、绘画、音乐、
数学语言、物理模型以及化学公式等
让人类更准确地表达自己的认知
有力地促进了社会文明进步
对机器而言
知识表示
(Knowledge Representation, KR)
将现实世界中的各类知识表达成计算机可存储和可计算的结构,
使得计算机可以无障碍地理解所存储的知识
知识表示的特点
客观事物的机器标识
即:知识表示首先需要定义客观实体的机器指代或指称
一组本体约定和概念模型
即:知识表示还需定义用于描述客观事物的概念和类别体系
支持推理的表示基础
即:知识表示还需要提供机器推理的模型与方法
用于高效计算的数据结构
即:知识表示也是一种用于高效计算的数据结构
人可理解的机器语言
即:知识表示需接近人的认知,是人可理解的机器语言
研究意义
意义
与成就
知识表示
已经探索过
语义网络、专家系统、语义网、知识图谱等形态
形成了
基于框架的语言、产生式规则、RDF 以及 OWL 等知识表示语言
人工智能
依靠机器学习技术的进步
在数据感知方面取得了巨大的进步
可以精准地完成图像识别、语音识别等任务
面临挑战
当前人工智能
在语言理解、视觉场景分析、决策分析等方面
依然面临巨大的挑战
其中一个关键挑战是
如何让机器掌握大量的知识
尤其是常识知识,
这体现了知识表示的重要性
二
研究内容和关键科学问题
前言
知识的类型
本体知识
表达实体和关系的语义层次
用于建模领域的概念模型
规则知识
表达实体和关系之间存在的推理规律
是更抽象的知识
事件知识
包含多种事件要素
是更多维更复杂的知识
1
本体知识
消除术语差异
术语差异
在万维网中
可能会用
不同的术语来表达相同的含义
或一个术语有多个含义
解决方案
对某个领域建立一个公共的本体
鼓励大家:在涉及该领域时都使用公共本体里的术语和规则
本体
哲学领域
本体最先是哲学领域提出的研究概念
哲学本体关心的是客观事物的抽象本质
计算机领域
本体可以在语义层次上描述知识
因此可以用于建立
某个领域知识的通用概念模型
即定义组成 “主题领域” 的词汇表的 “基本术语” 及其 “关系”,
以及结合这些术语和关系来定义词汇表外延的“规则”
一些概念
“领域”
是指一个本体
描述的是一个特定的领域
如:“大学”、“公司” 等
“术语”
指给定领域中的重要概念
如:大学这一领域中
涉及的有教工、学生、课程等概念
“基本术语
之间的关系”
包括类的层次结构(类
比 taxonomy)等关系
如:大学师生员工中包含了教工和学生,
学生又可分为本科生和研究生,教工同理,而学生和教工是两个并列的概念
“词汇表
外延的规则”
类似数据库中的“约束”
包括
概念的属性约束
如:X 教 Y
值约束
如:只有教职人员才能授课
不相交描述
如:教职人员和普通员工不相交
对象间的逻辑关系规定 等
如:一个系至少
要有10 个教职员工
通过对事物所具有的概念、
概念的关系、概念的属性
及概念的约束等明确、清晰地描述
本体体现了客观事物
内在、外在的关系
本体的四个重要特点
概念化
指本体表示的是各种客观存在的抽象模型
明确化
主要体现在描述客观事物时
利用自身概念化的表述优势和系统化的思想
准确地展示描述对象的特征
形式化
侧重使用特定的、严格规范化的、无歧义的语言对客观事物进行描述
以达到明确清晰的目的
共享化
是指本体所描述和表达的知识信息具有共享特性
希望能够被用户普遍认同并使用
本体与知识图谱间的联系
知识图谱
组成
① 数据层
存储知识图谱中的所有三元组信息
② 模式层
也称 schema 层 或 本体层
位于数据层之上
对数据层知识结构进行提炼
分支主题
通过在模式层上建立约束和规则,可规范图谱中的实体、
关系、实体属性、属性值之间的联系,以及完成在知识图谱上的推理
基于知识图谱
本体可以
① 以模式层的形式出现
表达数据层的抽象知识
② 以数据层的形式出现
表达资源之间的约束关系,
尤其是层次约束关系
2
规则知识
传统知识推理
优点
历史悠久,相对完备,其理论支持也比较完备
其所基于前提和规则更容易被理解,具有较好的解释性
分支主题
其中,规则是传统推理中一种重要的方式
知识图谱中的规则
body
表示:规则的主体
head
表示:规则的头部
一条规则
被表示为:由主体推导出头部
规则头
由一个二元的原子构成
规则的主体
由一个或多个一元原子或二元原子所构成
原子
包含了变量的三元组
其本身也有肯定和否定之分
霍恩规则
主体中仅包含肯定的原子的规则
质量评价方法
支持度(support)
表示满足规则主体和规则头的实例的个数
即该规则在知识图谱中成立的实例数
置信度(confidence)
为满足规则主体的实例的个数和支持度的比值
规则头覆盖度(head coverage)
即满足规则头部的实例数量和支持度的比值
规则的典型应用
根据给定的一套规则,通过实际情况得出结论
这个结论
可能是某种静态结果
也可能是需要执行的一组操作
推理
指:应用规则的过程
推理引擎
处理推理过程的一个程序
是专家系统的核心模块
规则引擎
以规则知识为基础进行推理的推理引擎
特点
易于理解、易于获取、易于管理
三
技术方法和研究现状
技术方法和研究现状
1
本体知识建模
本体知识建模语言
概述
本体构建之前
需要选择合适的本体描述语言
本体描述语言
是本体构建环节中的重要工具
客观的信息资源只有经过本体语言的描述转化后才能够
在计算机、网络上实现输入、导出、分类、语义关联、逻辑推理等一系列功能
XML
(Extensible Markup Language),可扩展标记语言
概述
是 W3C 组织创建的一种
定义标记的通用元语言
它向用户提供统一的框架
以便在不同应用之间交换数据和元数据
它能自定义和为其他语言
提供语法支持
XML 数据
表示形式简单,无任何语义约束,能够轻易的读写
应用
可用于
数据存储、编码、交换和数据分析、处理等方面
Web 服务、语义网构建等
通信协议、办公软件开发
可支持
基于 XML 语言的开发
RDF
(Resource Description Framework),资源描述框架
概述
是 W3C 组织制定的
第一个用于对任意资源进行语义信息描述的语言
描述对象(“资源”)和
对象间关系的数据模型
并为这种数据模型提供一个简单的语义
组成
由一系列陈述(statement)
即 “对象-属性-值” 三元组组成
RDFS
(RDF Schema)主要用于描述 RDF 词表
概述
刻画 RDF 资源的属性和类的
词汇描述语言
定义 RDF 数据模型
所使用的词汇
规定:什么属性可作用于什么类型的对象,
属性可以取什么值
也可描述:对象间的关系
从语义网的观点来看
RDFS 使机器可以解读语义信息
OWL
(Web Ontology Language),网络本体语言
概述
是 W3C 组织推出的
新的本体语言标准
相比于 XML、RDF、RDFS
增加了更多描述属性和类的词汇
支持基于描述逻辑的推理过程
提供了3个子语言
① OWL Lite
主要面向
需要构建分类层次和约束简单的本体用户
② OWL DL
主要提供给
需要构建最强表达能力
且保持计算的完整性和可判性的用户
③ OWL Full
主要提供给
追求最强表达能力
和完全自由的 RDF 语法的使用者
本体知识建模工具
Protégé、Apollo、OntoStudio、TopBraid Composer、Semantic Turkey、
Knoodl、Chimaera、OliEd、WebODE、Kmgen 和 DOME
Protégé
大众最熟悉最常用的一个工具
背景
最早开发于
1987 年
主要使用
OWL 语言对知识进行表示
其最初目的
通过减少知识工程师的手动操作
来消除知识建模的瓶颈
经过若干次的版本迭代,
逐渐演化成了现在的基于框架的本体编辑建模工具
可用于
概念建模、实体编辑、模型处理 以及 模型交换 等
支持
① 用户界面 ② OWL 语言
两种方式进行本体建模工作
需关注的特性
① 该工具是否拥有可视化用户界面
② 该工具是否支持分布式构建和存储
③ 该工具是否支持推理
④ 该工具是否被持续维护
本体知识建模的应用实践示例
本体可用于
网站的组织和导航
如:网站页面左边中往往会列出在概念层次结构中
最高层的术语,用户可以点击其中之一来浏览相关子目录
本体可用于提高
网络搜索的精确度
及支持特殊查询
搜索引擎可根据本体中的搜索关键词来查找相关的“概念”。同时可以根据语义层面的相关性消除术语差别
本体可支持网络搜索中不同粒度级别的查询
分支主题
如果查询失败,搜索引擎可向用户推荐更一般(即
粒度更粗)的查询(或搜索引擎主动执行这样的查询)
如果查询结果过多,
搜索引擎可以建议用户使用更特殊(即粒度更细)的查询
基于本体推理的
中医药诊疗实践
基于本体推理的
中医药五行诊疗系统
将抽象晦涩的中医五行理论构建成结构化的语义本体,有助于促进中医药理论知识的形式化表达
以语义规则的形式表现中医五行理论中的
生克乘侮关系及病机推理相关的逻辑关系
分支主题
是一种新的表达方法
能有效、直观地表达中医五行的内部机制
同时,结合 flex 技术
展示中医五行的诊疗过程
有助于帮助普通用户
理解中医理论的科学性
基于本体建模对
化工生产过程进行控制
基于本体构建 DEVS 模型
对化工生产过程进行控制
则利用本体强大的表达能力
建立 DEVS 本体模型
并利用本体强大的推理能力
对 DEVS 本体模型进行校验
避免将错误代入仿真过程,
保证化工生产过程的安全进行
2
规则知识建模
规则知识的建模语言
概述
在规则引擎中
通常会使用某种表述性的语言来描述规则
规则建模语言也是规则引擎的一个重要组成部分
目前的规则建模语言
并没有一个通用的标准获得规则引擎厂商的广泛支持
大部分规则建模语言都是厂商私有的
规则建模语言可分为两类
① 结构化的(Structured)
② 基于标记的(Markup,通常为 XML)
Prolog
命名来自“逻辑编程”(programming of Logic)
概述
广泛应用在
人工智能的研究中
它创建在逻辑学的理论基础之上
最初被运用于自然语言等研究领域
可以用来
建造 专家系统、自然语言理解系统、智能知识库 等
只要给出事实和规则
它会自动分析其中的逻辑关系
然后允许用户通过查询,完成复杂的逻辑运算
Datalog
是一种数据查询语言,语法与 Prolog 相似
概述
不是某一种具体的语言
而是一个规范
bddbddb、DES、
OverLog、Deals 等
都按照 Datalog 的语法实现了自己的语言
其语法是 Prolog 的子集,
但是 语义与 Prolog 不同
Prolog 程序里
事实和规则的
出现顺序决定了执行结果
Datalog 程序
对事实和规则的
出现顺序不做要求
RuleML
Rule Markup Language
概述
是一系列 Web 文档和数据语言
的统一系统
通过模式语言进行句法指定
最初为 XML 开发
并转换为其他格式
如:JSON
允许
允许部分受约束的语义简档
和完全指定的语义
作为一种基于研究的语言系统
RuleML 可作为
Prolog和 N3,F-logic 和 TPTP,
RIF 和 Common Logic 等语言的连接器
已经在其他规则语言间提供了适应
扩展的互操作桥梁
其他规则语言 - 如:SWRL 和 SWSL
SWRL
Semantic Web Rule Language
概述
其规则部分概念
是由 RuleML 所演变而来
并结合了 OWL 本体论的部分概念
其以语义的方式
呈现规则
已经是 W3C 规范中的一员
通过两者
的组合
可使得在撰写规则时
直接使用本体论中所描绘的关系和词汇
分支主题
而本来这些类别之间的关系
可能还需要额外的描述
但在SWRL中
可以直接使用本体论描述
规则知识的建模工具
Cyc 推理引擎、KAON2、Drools、Flora-2、Prova
Cyc 推理引擎
概述
Cyc 是一个人工智能项目
致力于
将各个领域的本体和常识知识进行整合
并在此基础上实现知识推理
目标
使人工智能的应用能够以类似于人类推理的方式工作
部分项目以
OpenCyc 的形式发布
OpenCyc
项目
以开源许可的形式向开发者和
用户提供 API,并可以下载数据集
KAON2
概述
是用于管理
OWL-DL、SWRL 和 F-Logic 本体论的
基础架构
① 能够操纵 OWL-DL 本体论
② 可以使用 SPARQL 完成查询
是 KAON 项目(通常称为 KAON1)的继任者
与 KAON1 的主要区别
在于支持的
本体语言
KAON1
使用 RDFS 的专有扩展
KAON2
基于 OWL-DL 和 F-Logic
并且与 KAON1 不兼容
Drools
概述
是一个业务规则管理系统
具有
基于前向链接和后向链接推理的
规则引擎
可快速,可靠地评估业务规则
和进行复杂的事件处理
基于 Rete 算法的增强算法实现
作为一个易于访问企业策略、易于调整以及易于管理的开源业务规则引擎
符合业内标准
速度快、效率高
分支主题
业务分析师人员
或审核人员
可利用它轻松查看业务规则
从而检验
已编码的规则
是否满足所需的业务要求
Flora-2
概述
是一个开源的
基于语义规则的规则引擎
系统的语言来源于
F-logic,HiLog 和 Transaction logic
分支主题
基于 F-Logic 和 HiLog 意味着
面向对象的语法和高阶表示
是 Flora-2 系统的主要特征
其还支持一种可废止的推理形式
称为
具有默认值和论证理论
的逻辑编程 (LPDA)
Prova
概述
是一个基于规则的脚本系统
用于中间件
该语言通过使用
允许调用 Java 函数的 prolog 语法
结合了命令式
和声明式编程
通过提供适当的语言语法
与 Java 的本机语法集成、
代理消息传递和反应规则
来扩展 Mandarax
规则知识建模的应用实践示例
概述 - 规则引擎
在应用中
作为一个嵌入在应用程序中的组件
核心思想
将复杂多变的规则从业务流程中解放出来
以规则脚本的形式存储在文件或数据库中
使得业务规则的变化不需要修改代码重启机器就可以在线完成
用于
血液疾病
的诊断
1970 年代,斯坦福大学利用 LISP 语言开发了世界上第一个基于规则的系统——MYCIN 系统,主要用于血液疾病的诊断,并给出了相应的治疗方法
在该应用中:知识与控制分离
即:知识抽象出相应的规则,
与评价和执行的控制逻辑程序分离
规则引擎
也适用于
政务服务
举例:在税收制度的发展中
需明确
业务规则
如:公司名称的长度、合伙纳税人的比例、外商投资企业的比例等
税制的改革和完善必然会改变税收业务规则
而若将相关的规则
直接写入源代码
在方案的进行修改时
必然会导致项目的重新部署
给维护工作带来极大的不便
使用规则引擎可以很好地解决以上问题
应用于
电商场景
可利用规则
在电商场景下进行同款商品挖掘
并且在达到目的的基础上
可以得到符号化的知识表示,
将其作为一种选择策略辅助人工进行判断
同款商品
规则建模发现
旨在
将不同平台、不同商家销售的同一款商品挂载到统一的产品实体上
这有助于打通不同平台
商品实体之间的联通
提供跨域的实体对齐,
从而构建一个更完备的商品知识图谱
规则的作用
帮助业务人员对齐新的商品对
并且规则
具备可解释性
业务人员能够
很清楚地知道
两个商品是基于哪些重要的属性
和属性值来判断对齐与否
因此规则在实际的电商场景上
有很大的应用
但目前规则库中的规则
主要是由业务专家构造
为了提升规则建模效率
降低规则建模成本
部分规则也采取了自动化的规则挖掘方法
四
技术展望与发展趋势
技术展望
近年来
本体知识建模利用自然
语言处理、机器学习等技术
从多源异构数据中
进行自动化的构建
取得了长足的进展
自动构建的过程中
如果数据是结构化的(如 图表数据)已知属性名称、属性间的层次结构等
构建本体相对较为容易
如果缺乏以上信息
则只能通过文本信息等非结构化数据提炼知识构建本体
技术上将面临很多挑战
发展趋势
整体趋势
多模态数据及数据的结构化工作
如:从图片或文本中提取结构化的知识,进行语义对齐
低资源场景下的本体构建
近年来的很多工作围绕小样本和零样本利用集成学习、多任务
学习、预训练模型、元学习等技术结合深度学习模型进行探索
大规模本体构建
现有实用系统可以有效处理更大规模的本体数据,
数据量大、种类多样、结构不同都为本体构建带来巨大的挑战
主要问题
规则可视化配置
需要设计更高级的方案,让业务人员通过界面引导配置各种规则,而不是让技术人员从后台手动配置,彻底解放技术人员
规则执行的效率
在规则数量不断增加,业务数据被索引并不断增长的情况下,如何
快速选择规则,做出快速准确的决策,不会使规则数量成为系统的瓶颈
规则的维护
当规则数量增加时,如何维护这些规则?更改规则时如何保证与之前发布的规则不冲突?规则能够更好的维护将使这些规则不会相互干扰,相互独立
应用方面
通用领域
数据治理、搜索与推荐、问答 等
有所突破
众多领域
智能生产、智慧城市、智能管理、智能运维 等
众多行业
工业、金融、司法、公安、医疗、教育 等
0 条评论
下一页