自然语言处理NLU
2020-05-28 11:58:31 0 举报
AI智能生成
自然语言
作者其他创作
大纲/内容
难点
语言的多样性
语言是自由组合的,它可以组合复杂的语言表达
语言是开放集合,它可以创造新的表达方式
语言是需要联系到实践知识,有一定的知识依赖
语言的使用,要基于环境和上下文
应用
情感分析
聊天机器人
语音识别
机器翻译
实现步骤
分词(中)
分词的原因
1. 将复杂问题转化为数学问题
2. 词是一个比较合适的粒度
3. 深度学习时代,部分任务中也可以「分字」
中英文分词的3个典型区别
1. 分词方式不不同,中文更更难
2. 英文单词有多种形态,需要词性还原和词干提取
3. 中文分词需要考虑粒度问题
中文分词的3大难点
1. 没有统一的标准
2. 歧义词如何切分
3. 新词的识别
3个典型的分词方式
基于词典匹配
基于统计
基于深度学习
词干提取和词形还原
相似点
目标一致
部分结果一致
主流实现方式一致
应用领域相似
不同点
原理不同
词形还原更加复杂
具体实现方式的侧重点不同
呈现结果有区别
应用领域上,侧重点不完全一致
词干提取的主要算法
Porter
ShowBall
Lancaster
Porter
ShowBall
Lancaster
词性标注
实现方法
基于规则
基于统计
基于规则+统计
深度学习
工具
Jieba SnowNLP THULAC StanfordCoreNLP HanLP SpaCy
Jieba SnowNLP THULAC StanfordCoreNLP HanLP SpaCy
命名实体识别
阶段
阶段 1:早期的⽅方法,如:基于规则的⽅方法、基于字典的⽅方法
阶段 2:传统机器器学习,如:HMM、MEMM、CRF
阶段 3:深度学习的⽅方法,如:RNN – CRF、CNN – CRF
阶段 4:近期新出现的⼀一些⽅方法,如:注意⼒力力模型、迁移学习、半监督学习的⽅方法
实现方式
监督学习
半监督学习
无监督学习
混合方法
分块
实现方式
传统机器学习
深度学习
包含
自然语言生成NLG
生成方式
文本到语言的生成
数据到语言的生成
文本到语言的生成
level
简单的数据合并
模板化的NLG
高级NLG
流程
1.内容确定
2.文本机构
3.句子聚合
4.语法化
5.参考表达式生成
6.语言实现
目的
能够大规模生产个性化内容
帮助人类洞察数据,让数据更加容易理解
加速内容生产
应用
自动写新闻
聊天机器人
BI报告生成
自动写新闻
聊天机器人
BI报告生成
自然语言理解NLU
实现方式
基于规则的方法
基于统计的方法
基于深度学习的方法
0 条评论
下一页