深度学习与自然语言处理
2018-01-15 18:35:51 76 举报
AI智能生成
VSDQWDFFW
作者其他创作
大纲/内容
自然语言处理
主要方法
理性主义方法
经验主义方法
深度学习与NLP
面临的主要难题
歧义问题
词义歧义
分词
歧义切分
交叉歧义(字符串ACB,AC和CB都是一个汉语词汇)
组合歧义(字符串AB是一个词汇,A和B同时也是词汇,会存在不同语义下切分不同)
真歧义(怎么切分都合理)
乒乓球拍卖完了,“乒乓球拍/卖/完了”,“乒乓球/拍卖/完了”
新词发现
新词是指在从前的分词词典中没有收录,后来出现并被大家公认的词语。新词发现难的原因在于新词覆盖面广,词语构成没有普遍规律;低频新词数据稀疏,识别难度大
比如“屌丝”、“不明觉厉”、“累觉不爱”等。除了人名、未登录词以外,地名、机构组织名、事件名、缩略语、派生词、各种专业术语也属于新词
词类歧义
句子语义歧义
句法结构歧义
短语级别上,结构关系不同和结构层次不同都会造成歧义的出现
比如“修改方案”可以理解为动宾关系(修改了一个方案),也可以理解为偏正关系(一个修改方案),这是结构关系不同所造成的歧义;
在句子级别上,可能出现语义组合歧义
比如“他在汽车上画画”,介词短语“在汽车上”的语义既可以指“他”(他在汽车上上,他画画),也可以指向“画画”
语气歧义
当语气不同的时候,表达的意思可能大相径庭
例如问题“你今天钓到鱼了吗?”,回答“运气好极了,一条都没有钓到。”机器需要判定,这里的“运气好极了”可不是有好运气的感慨。
未知语言现象
微博、微信大量稀奇古怪的词语和话语结构
语言知识处理的复杂性
介绍
为了消除歧义,机器需要获取更多的知识,而消除歧义所需要的知识在获取、表达以及运用上存在困难,主要包含上下文知识和背景知识的问题
难点
上下文知识的获取问题
所谓的“上下文”指的是当前所说这句话所处的语言环境
由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文知识获取是语言知识处理复杂性的一大体现
情形
说话人所处的环境,人说话时指代的对象,人说话时省略的部分是什么,或者是这句话的前几句话或者后几句话等等
在人的交流过程中,时常会有指代
在某些以任务驱动的对话中,用户通过使用某类产品会在某一领域获得相对完整的服务,解决一个复杂问题,或者获得某种方向性的引导
背景知识获取问题
正确理解人类语言还要有足够的背景知识,机器也需要了解约定俗成的东西
输入的不规范性
在输入时,可能会出现错误。常见的不规范输入主要是错别字、口语化、语法不对
分类
错别字
用户时常会有一些有瑕疵的输入
口语化
例子
跟他说了我赶时间他还不麻溜儿地过来,这不能够啊”
语法不对
正确的句式应该是主、谓、宾的格式,但人的的表达往往没那么多条条框框
“顺风车没有到目的地就强制让我下车,他自己找找错误我然后还要就不按我给她说的路线走他自己绕路,还要让我强制交高速费”
其它
处理不同语言的差异
提取文本
应用方向
信息抽取
0 条评论
回复 删除
下一页