语音识别
2023-07-04 14:01:24 16 举报
AI智能生成
语音识别知识梳理
作者其他创作
大纲/内容
语音识别基础知识
语音识别是什么?
语音识别技术又称Automatic Speech Recognition,即ASR技术,目的是将语音序列转换为文本序列
语音识别的本质就是一种模式识别的过程,将未知的语音模式与已知的语音模式进行对比,最佳匹配的参考模式就被视为识别结果
语音识别系统的四个模块
信号处理与特征提取
信号处理:对语音片段进行噪声消除和信道增强等预处理技术
不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取
梅尔频率倒谱系数(MFCC)提取特征,Python 提供了 pyaudio 和 librosa等语音处理工作库
卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型提取语音特征
卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型提取语音特征
声学模型
对提取的音频特征进行进一步的处理,处理的目的是找到语音来自于某个声学符号(音素)的概率
根据声学特征性计算每一个特征向量在声学特征上的得分
语言模型
用来计算出一个句子出现概率的模型,简单来说,就是计算出这个句子在语法上是否正确的概率。
反映字词出现的先验概率,比如“郝”和“好”,这两个字发音相同,但“郝”相对于“好”来说,
出现的概率较低,一般都会出现在姓氏里;反映词顺序是否符合语言习惯和反映词的语义信息
出现的概率较低,一般都会出现在姓氏里;反映词顺序是否符合语言习惯和反映词的语义信息
计算该声音信号对应可能词组序列的概率;类似 n-gram 和 RNN 等模型,会得到一个语言模型得分
解码搜索
语音技术中的识别过程
解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构
语音识别系统分类
基于传统声学模型的语音识别系统
高斯混合模型(GMM)和隐马尔可夫模型(HMM)等
基于深度学习的语音识别系统
循环神经网络、LSTM、编码-解码框架、注意力机制等
业务需求
识别说话内容和时长,对累计时长超过阈值给出提示
使用python的SpeechRecognition库
1.获取语音文件,支持从文件、麦克风读取
2.获取识别语音内容的对象
3.打开语音文件,调用recognize_sphinx接口将语音转化为文本
python调用开源API
1.Google API--无需注册可直接使用,但无法访问Google网页,需要国外vps
2.百度 API--需要注册账号,创建语音识别应用,获取API Key和Secret Key
基于深度学习的语音识别
1.预处理语料
2.提取音频特征,使用MFCC特征或者神经网络提取特征
3.构建神经网络模型,如RNN、CNN、LSTM的混合模型
4.模型训练及结果评估
0 条评论
下一页