语音识别之ASR
2020-03-19 09:36:30 0 举报
人工智能-语音交互
作者其他创作
大纲/内容
依据人耳原理
【每帧语音对应哪个状态】【多个帧对应一个状态】
降噪
按帧拆分(帧长、帧移)
若干音素组词
隐马尔可夫模型
声学特征提取编码
LPCC、MFCC特征提取依据声学特征数量
语音输入
切除静音VAD
组合状态->音素3个状态-> 1个音素
词组成连句
多个向量
声学模型AM&语言模型LM解码
音素,音素集、状态中文直接将全部的声母和韵母,以及区分声调得出音素集
1:构建一个状态网络网络搭建足够大,包含任意文本路径,网络越大识别准确率越高2:从状态网络中寻找与声音最匹配的路径(临近最优)
帧 -> 状态(比音素还小)(难点)
去除多余相似音素
1:单次级网络展开程音素网络,再展开成状态网络(解码)2:路径搜索是动态规划剪枝的算法Viterbi算法,全局寻找最优路径3:观察概率:每帧和每状态对应的概率4:转移概率:每个状态转移到自身或者下一个状态的概率
【生成每帧多个向量表示】
每个帧
文字输出
ASR 语音识别原理
观察序列
声学模型
1:帧对应哪个状态的概率最大,概率分布2:巨大的语音数据3:声学模型需要大量的参数4:从语音数据中获取这些参数并进行训练
语言概率:根据语言统计规律得到的概率(如果不适用,那么识别出的语言是乱的)
信号处理wav 语音信号
0 条评论
下一页