语音识别技术发展历史及原理知识点笔记
2022-10-24 11:38:21 0 举报
AI智能生成
语音识别技术发展历史及原理知识点笔记
作者其他创作
大纲/内容
涉及领域
信号处理
模式识别
概率论和信息论
发声机理和听觉机理
人工智能
技术发展
隐马尔可夫模型(HMM)技术的成熟和不断完善成为语识别的主流方法
以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型
人工神经网络在语音识别中的应用研究的兴起
面向个人用途的连续语音听写机技术也日趋完善
国外发展史
1952年贝尔研究所Davis等人研究成功了世界上第一能识别10个英文数字发音的实验系统
1960年英国的Denes等人研究成功了第一个计算机语音识别系统
大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破,但是,在语音识别技术的应用及产品化方面出现了很大的进展
DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨支持语言理解系统的研究开发工作
到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”
到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”
日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展
1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统
进入90年代后,语音识别技术开始应用于全球市场,许多著名科技互联网公司, 如IBM,Apple等,都为语音识别技术的开发和研究投入巨资
到了 21 世纪,语音识别技术研究重点转变为即兴口语和自然对话以及多种语种的同声翻译
中国发展史
中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音
直至1973年才由中国科学院声学所开始计算机语音识别
进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件
1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题
最新进展
技术新发展
将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率
目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础
随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能
技术新应用
语音对话机器人
语音助手
互动工具
主要问题
对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则
语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的
语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的
单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等
环境噪声和干扰对语音识别有严重影响,致使识别率低
历史
简介
概述
语音识别技术,也被称为自动语音识别
其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
应用
语音拨号
语音导航
室内设备控制
语音文档检索
简单的听写数据录入
涉及的领域
信号处理
模式识别
概率论和信息论
发声机理
听觉机理
人工智能
0 条评论
下一页