【人工智能认证】智能语音技术基础
2023-03-17 17:11:29 1 举报
AI智能生成
根据阿里云人工智能助理工程师ACA认证内容梳理
作者其他创作
大纲/内容
概述
定义
通过对语音进行分析、理解和合成,使计算机设备实现“能听会说”、具备自然语言交流的技术能力
涉及范围
语音降噪与增强技术
语音识别技术
语音测评技术
语音合成技术
研究任务
基础
心理
语言
声学
指导
信息论
控制论
系统论
技术
信号处理
统计分析
模式识别
常用技术
语音降噪与增强
语音识别
语音唤醒
语音合成
声纹识别
难点
一门跨领域的技术,涉及到很多领域,需要掌握各领域的基础知识、掌握很多技能才能实用化
涉及领域:语言学、心理学、信号处理、深度学习...
应用场景
法庭庭审转写
智能客服质检
实时直播字幕
智能语音问询终端
小说新闻内容阅读
处理对象
语音
定义
是人类语言的物质表达,是语言的外部形式
最直接地记录人的思维活动的符号体系
人的发音器官发出的具有一定社会意义的声音
是声音和语言的组合体,是一段语音序列携带语言信息的声音
语音信号
定义
语音的基本模拟形式为语音信号的声波波形
语音信号在产生过程中与环境和发声器官的联系很紧密,与各种运动都是相关的,语音信号本身是不平稳的信号
特点
通过麦克风转换成电子波形
通过模拟信号/数字信号处理操作
由扬声器或耳机转换回声学形式
语音信号处理
定义:将一种语音信号表示形式转换为另一种语音信号,以揭示语音信号的各种数学或实际性质,并进行适当的处理,以帮助解决基本问题和深层问题
目的
理解语音是一种交流的手段
语音的传播和复制
对语音进行分析,以便自动识别和提取信息
发现说话者的一些生理特征
计算机音频
音频文件的参数
声道
比特率
音频采样率
音频采样位数
音频编码
PCM
WAV
MP3
AAC
OGG
FLAC
相关技术
语音降噪与增强技术
定义
从带噪声的语音信息中提取有用语音信号,抑制或降低噪声干扰的技术
作用
降低背景噪声干扰,改善语音质量,提升听者的舒适度
提高语音信息传达的可懂度
研究思路
传统信号处理方式
实现原理:基于物理和数学原理推倒,适用性强,所以系统一般有比较好的鲁棒性
使用环境
传统信息处理方法一般具有小计算量、低延迟等优势,容易满足实时性要求
方法
基于单通道的语音降噪与增强方法
基于麦克风阵列的语音降噪与增强方法
深度学习方法
实现原理:利用【大量】的语音数据或噪声数据,训练网络学习相关的特征从而实现降噪,性能变化范围较大,系统在新环境下鲁棒性较差
使用环境
模型及计算资源等问题一方面会限制其在计算资源有限的系统中的使用
另一方面难以保证实时通信需求
语音识别技术
定义
让机器通过识别和理解,把语音信号转变为相应的文本或命令
语音识别技术就是“机器的听觉系统”
原理(PPT)
语音唤醒技术
定义
在一串语音流中,检测出预先定义的【激活词】或【关键词】而不需要对所有的语音进行识别
语音识别任务的一个分支,又称关键词检测
训练流程(PPT)
语音合成技术
定义
可将基本语音信息数字化,并利用计算机系统仿真出人类的声音
一种通过机械的、电子的方法产生人造语音的技术,又称文语转换
可以将任意输入文本转换成相应语言
原理
传统语音合成
语言分析部分
主要是根据输入的文字信息进行分析,生成对应的语言学规格书
主要有以下阶段:输入文本 》 句子结构分析 》 文本正则 》 文本转音素 》 韵律预测
声学系统部分
需要根据语言分析部分的分析结果,通过一定的方法生成语音波形,但目前仍需要人工介入制定很多挑选规则和参数
端到端语音合成
直接输入文本或者注音字符,系统直接输出音频波形
优点
降低了对语言学知识的要求,可以很方便在不同语种上复制,批量实现更多语种的合成系统
表现出强大丰富的发音风格和韵律表现力
不足
灵活性降低
效果不稳定
智能语音交互
人机交互的趋势
PPT
定义
基于语音输入的新一代交互模式
人类通过语音交流与机器进行信息传递的活动
基于语音识别、语音合成、自然语言理解等技术
优势
信息传递效率(速度及准确率)更具优势
使用门槛低
传递声学信息
劣势
信息接受效率问题
嘈杂环境的影响
公开环境的影响
智能对话系统
定义
人与机器可以通过自然语言进行对话交互的系统
用准确、简洁的自然语言,回答用户用自然语言提出的问题
注重与人的交互、对人意图的理解、对对话氛围的感知、以及回答的多样性和个性化
分类
任务型
用户希望完成特定的任务
机器人通过多轮对话满足用户需求
评估指标:需求完成率
问答型
用户希望得到特定问题的答案
机器人回复来自特定领域的知识库
评估指标:准确率
闲聊型
用户没有明确目的
机器人也没有标准答案
评估指标:相关性、趣味性
发展趋势
快速适应
有能力从机器与人的交互中主动学习
快速适应用户的需求
深度理解
目前模型产生的回复仍然缺乏多样性
能够更加有效地深度理解语言和真实世界
保护隐私
对话助手可能存储了一些较为敏感的信息
因此加强对用户隐私的保护是非常重要的
组成要素
用户
指产品或服务的使用者
对话代理人
既可以是真人,如客服人员;也可以是虚拟人,如机器人
对话轮次
一来一回称一轮,来回多次称为多轮对话
会话
由用户发起的某次多轮对话。会话是对话代理人与用户质检发生的一次连续对话
意图
系统能够识别的最小的用户目的,是系统决策的基本元素之一
槽位
存储会话过程中提取到的所有实体/槽值信息,用于后续对话系统的决策
实体/槽值
特殊领域相关的实体需要单独定义,通用实体则可以由平台统一支持
动作
理解用户的意图后,对话代理人除了回复消息外,可能需要做其他动作
实现流程
调研
需求分析
场景选择
定位
创建人物画像
选择对话风格
设计
设计对话流程
对话体验脚本
情感化设计
测试
模拟测试
场景测试
完善
用户反馈
数据分析
迭代更新
技术应用
PPT
阿里云智能语音交互平台
功能
语音识别
多产品形态
多语种支持
自研的SAN-M模型
语音分析
说话人识别
声音事件检测
性别识别
语种识别
语音合成
支持中英文混合播报
支持字级别时间对齐
可快速进行行动态参数调整
语音与神经网络知识结合
一句话识别功能
准备账号
开通服务
创建项目
配置项目
运行SDK
0 条评论
下一页