语音识别技术原理
2021-09-08 14:19:27 1 举报
AI智能生成
实现知识大跨越,先来了解下语音识别是如何实现的?
作者其他创作
大纲/内容
简介
概述
语音识别技术,也被称为自动语音识别
其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
应用
语音拨号
语音导航
室内设备控制
语音文档检索
简单的听写数据录入
涉及的领域
信号处理
模式识别
概率论和信息论
发声机理
听觉机理
人工智能
历史
1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器
最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。
1960年代,人工神经网络被引入了语音识别。
语音识别技术的最重大突破是隐马尔科夫模型Hidden Markov Model的应用
原理
动态时间伸缩方法使用瞬间的、变动倒频。
通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,
倒频谱的计算通常使用快速傅立叶变换。
运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。
文本无关语音识别方法的例子
平均频谱法
平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。
矢量量化法
使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。
多变量自回归法
分类
从说话者与识别系统的相关性考虑
(1)特定人语音识别系统
仅考虑对于专人的话音进行识别
(2)非特定人语音系统
识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习
(3)多人的识别系统
通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
从说话的方式考虑
(1)孤立词语音识别系统
孤立词识别系统要求输入每个词后要停顿
(2)连接词语音识别系统
连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现
(3)连续语音识别系统
连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
从识别系统的词汇量大小考虑
(1)小词汇量语音识别系统
通常包括几十个词的语音识别系统
(2)中等词汇量的语音识别系统
通常包括几百个词到上千个词的识别系统。
(3)大词汇量语音识别系统
通常包括几千到几万个词的语音识别系统
基本方法
基于语音学和声学的方法
第一步,分段和标号
把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。
根据相应声学特性对每个分段给出相近的语音标号
第二步,得到词序列
根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,
也可结合句子的文法和语义同时进行。
模板匹配的方法
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。
所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。
HMM是对语音信号的时间序列结构建立统计模型,
将之看作一个数学上的双重随机过程
一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程
另一个是与Markov链的每一个状态相关联的观测序列的随机过程
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。
过程
将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。
量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为"距离"最小的区域边界的中心矢量值。
矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,
设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。
神经网络的方法
利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。
人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,
具有自适应性、并行性、鲁棒性、容错性和学习特性
其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力
由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。
0 条评论
下一页