NLP(naturallanguageprocessing)
2018-05-04 16:58:08 0 举报
AI智能生成
NLP
作者其他创作
大纲/内容
NLP(natural language processing)
定义
以自然语言为对象的计算机处理
日常生活中为了交流而产生的语言,中文,英语、一些网络用语等等
自动摘要,机器翻译等等
应用方向
文本分类和聚类
主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关键字词查询时,可以根据索引库快速地找到需要的内容
搜索引擎
信息检索和过滤
网警服务
信息抽取
信息抽取研究旨在为人们提供更有力的信息获取工具
从自然语言文本中抽取事实信息
问答系统
拼音汉字转换系统
机器翻译
新信息检测
自然语言生成
自动文摘
。。。。。
深度分析的NLP
层次结构
语言层(linguistic level)
数据结构化->深层次分析
抽取层(extraction level)
主观情报,舆情挖掘就是基于这一种抽取
传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等
挖掘层(mining level)
根据抽取出的信息进行深层次分析然后整合,提高信息质量,挖掘隐性信息
应用层(app level)
分析、抽取、挖掘出来的种种情报可以支持不同 NLP 产品和服务
重点介绍
句法分析
进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧
语义分析
方法
分布式:它利用机器学习和深度学习的大规模统计策略。
框架式:句法不同,但语义相同的句子在数据结构(帧)中被表示为程式化情景。
理论式:这种方法基于的思路是,句子指代的真正的词结合句子的部分内容可表达全部含义
交互式(学习):它涉及到语用方法,在交互式学习环境中用户教计算机一步一步学习语言。
机器学习
机器学习就是用算法真正解析数据,不断学习,然后对世界中发生的事做出判断和预测
使用包含复杂结构或由多重非线性变换构成的多个处理层(神经网络)对数据进行高层抽象的算法
一组大致模仿人类大脑构造设计的算法,用于识别模式
深度学习过程
深度学习的过程同样是分为训练和推理(既“评估”)两个过程,通过训练过程来获得数据模型,然后用于评估新的数据。
医疗应用
同行学
CL
计算机科学(Computer Science)与语言学(Linguistics)之间的交叉学科
等级划分
句法学:给定文本的哪部分是语法正确的
语义学:给定文本的含义是什么?
语用学:文本的目的是什么
区别
CL注重学问理论,NPL注重实践
CL是 NLP的科学基础,NLP是 CL的应用过程
ML
机器学习(Machine Learning)
说明
不同层次的概念,前者是方法,后者是问题领域
Rule System
计算文法
语言学家或知识工程师手工编制的语言规则集合称计算文法(Computational grammar)
计算文法支持(or 编译)的系统叫做规则系统(Rule system)
NLU
自然语言理解(Natural Language Understanding)
一定程度上属于NLP
难点
词法歧义性:单词有多重含义
句法歧义性:语句有多重解析树
语义歧义性:句子有多重含义
回指歧义性(Anaphoric Ambiguity):之前提到的短语或单词在后面句子中有不同的含义
。。。。。。
NLP->把各种感知层获取的信息转化为机器可以理解的数据表示
“处理”好比控制眼睛、耳朵、舌头的神经,他们将接收的信息转化成大脑可以理解的内部信息
NLU->理解是要对处理后的数据进行语义语境情感的判断,是更难的领域
而“理解”则是大脑皮层负责语言理解那部分,多少亿的脑细胞共同完成的功能
理解”是更加深奥的东西,涉及更多神经学、心理学、逻辑学领域
NLG
从结构化数据中以可读地方式自动生成文本的过程。自然语言生成的问题是难以处理
可分三个阶段
文本规划:完成结构化数据中基础内容的规划
语句规划:从结构化数据中组合语句,来表达信息流
实现:产生语法通顺的语句来表达文本
AI
Artificial Intelligence 研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统
四大技术种类
机器学习,让机器人思考,接收新知识。
语音识别,让机器人听说。
视觉识别,让机器人看懂。
运动控制,让机器人运动。
机器学习和规则系统方法的利弊
宏观与细节
宏观上粗线条(course-grained)把握语言现象
计算文法则擅长细致深入的语言学分析
互补关系
ML=>高查全率(High recall)
RS=>高查准率(High precision)
结合方式
计算文法做高精度低覆盖面的处理
机器学习出来的统计模型(Statistical model),以便粗线条覆盖遗留问题
概念关系图
0 条评论
回复 删除
下一页