【人工智能认证】自然语言处理基础
2023-03-14 13:02:50 3 举报
AI智能生成
来源于阿里云人工智能助理工程师认证ACA内容整理
作者其他创作
大纲/内容
概述
定义
指计算机识别、理解、计算分析、生成自然语言的过程
研究任务
自然语言理解
所有支持机器理解文本内容的方法模型或任务的总称,是推荐、问答、搜索等系统的必备模型
自然语言处理
将非语言格式的数据转换成人类可以理解的语言格式,是翻译、写作等系统的必备模块
发展趋势
智能人机交互
不同语言、不同领域下的人机交互提升
多语言交互从不同语言理解上升到不同文化的理解
多模态融合
视频、图像、文本、语音等模态的全面融合
在对话系统产品中应用效果显著
解决方案建设
每种场景领域都有特定的需求及其相应的场景数据
模型结合场景数据进行训练能够更好地满足场景需求
形成行业知识库
结合已有的知识和技术提高非结构化数据理解能力
基于过去已知知识进行推理,理解行业事件知识
数据基础
语料库
在语言的实际使用中真实出现过的语言材料,一般具有既定格式与标记
大量已知预料数据的集合,在自然语言处理模型的定型过程中起到基准的作用
现代汉语与英语的主要区别:汉语中名词、动词、形容词的语法功能是相互交错的
常见语料库
中文语料库
国家语委现代汉语语料库
古代汉语语料库
分词库
英文语料库
布朗语料库
停用词库
技术基础
词法分析
主要作用:将句子、段落、文章这种长文本分解为【字词】为单位的数据结构,方便后续的处理分析工作
所需知识:分词、词性标注
句法分析
主要作用:识别句子包含的【字词组合】以及这些组合之间的【关系】,构成句法结构
所需知识:关键词提取、命名实体识别、语法分析
语义分析
主要作用:分析语法结构的同时,分析单词、词组、句子、段落所包含的【意义】
所需知识:文本向量化
基础技术
分词
定义:将句子、段落、文章等长文本分解为以【字词】为单位的数据结构
常见方法
最大匹配分词算法
最短路径分词算法
难点
界定中文词汇
分词歧义问题
分词切分粒度问题
未登录词问题
词性标注
定义:在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程
标注规范:先将词分为名词、动词、形容词等,然后用“n”“v”“adj”等来进行表示
关键词提取
定义:提取文本中一些体现中心思想的重要的词,提取的评价标准为词的权重
步骤
获取文本的候选词
对候选词进行打分
关键词提取算法
有监督的关键词提取
无监督的关键词提取
命名实体识别
定义:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,识别对象可分为3大类和7小类
标注方法
三大类:实体类、时间类、数字类
七小类:人名、机构名、地名、时间、日期、货币、百分比
语法分析
定义:判断字词属于某种语言,消除句子的歧义,分析输入句子的内部结构
难点
歧义
搜索空间
实现方法:基于规则的方法
文本向量化
定义:将文本表示成计算机可识别的数值形式,通过一个语言模型来构建关于输入文本和输出文本之间的映射关系
常用方法
离散式词向量
常用One-Hot编码,每一个词特征都被表示成一个很长的向量
分布式词向量
将词转化成一种分布式表示,即将词表示成一个定长的连续的稠密向量
自然语言【理解】技术
文本分类技术
定义:对文本按照一定的分类标准进行自动分类标记,利用待分类数据的特征与类别进行匹配,选择最优的匹配结果作为分类结果
实现方法(PPT)
应用
邮件属性分类
广告内容审核
新闻分类推送
情感分析技术
定义:对带有情感色彩的主观性文本进行分析、处理、归纳和推理,将每一个新的单词与字典中的词汇进行匹配,根据匹配结果提高或降低文本的得分
实现方法(PPT)
应用
电子商务
舆情分析
市场分析
用户维护
文本纠错技术
定义:将文本中有错误的地方进行纠正,错误类型包含错别字、缺失字、冗余字、词语搭配错误和语法错误等
实现方法(PPT)
应用
写作辅助
公文纠错
搜索纠错
对话纠错
问答系统技术
定义:能够对于一个指定问题,能够得到简短、精确的答案,包含分析问题、检索答案和提取答案三个步骤
实现方法(PPT)
应用
智能客服
快速检索
自然语言【生成】技术
文本标签生成技术
定义:生成的标签在一定程度上能够体现文本内涵,是文本检索、文档比较、摘要生成、文档分类和聚类等【文本挖掘】研究的【基础性工作】
实现方法(PPT)
应用
个性化推荐
主题聚合
文本摘要生成技术
定义:自动生成含原文本中重要信息的新文本内容
目标:通过机器自动输出简洁、流畅、保留关键信息的摘要
实现方法(PPT)
应用
自动报告生成
新闻标题生成
搜索结果预览
智能创作技术
定义:可以分为人工智能自动写作和人工智能辅助写作两种,具有作品制作高效、具有强大潜能、内容客观、节省人力成本等优点
类别
人工智能自动写作:人工智能算法自主完成写作任务,不需要人工干预
人工智能辅助写作:在人类写作的全流程中提供辅助功能,帮助完成写作任务
实现方法(PPT)
应用
人工智能自动写作
智能写诗
智能春联
人工智能辅助写作
热门话题推荐
素材推荐
素材归纳
内容提示
智能纠错
智能配图
自动排版
阿里巴巴自然语言处理NLP平台
NLP基础服务
开通服务
获取账号的访问密钥
选择想要调用的API
调用API服务
NLP自学习平台
新建项目
数据标注
一键训练
评估并使用
0 条评论
下一页