解析深度学习:语音识别实践
2020-04-17 10:20:17 0 举报
AI智能生成
解析深度学习:语音识别实践
作者其他创作
大纲/内容
解析深度学习:语音识别实践
第二部分 深度神经网络
4 深度神经网络
4.1 深度神经网络框架
4.2 使用误差反向传播来进行参数训练
4.2.1 训练准则
4.2.2 训练算法
4.3 实际应用
4.3.1 数据预处理
4.3.2 模型初始化
4.3.3 权重衰减
4.3.4 丢弃法
4.3.5 批量块大小的选择
4.3.6 取样随机化
4.3.7 惯性系数
4.3.8 学习率和停止准则
4.3.9 网络结构
4.3.10 可复现性与可重启性
5 高级模型初始化技术
5.1 受限玻尔兹曼机
5.1.1 受限玻尔兹曼机的属性
5.1.2 受限玻尔兹曼机参数学习
5.2 深度置信网络预训练
5.3 降噪自动编码器预训练
5.4 鉴别性预训练
5.5 混合预训练
5.6 采用丢弃法的预训练
第三部分 语音识别中的深度神经网络–隐马尔可夫混合模型
6 深度神经网络–隐马尔可夫模型混合系统
6.1 DNN-HMM混合系统
6.1.1 结构
6.1.2用CD-DNN-HMM解码
6.1.3 CD-DNN-HMM训练过程
6.1.4 上下文窗口的影响
6.2 CD-DNN-HMM的关键模块及分析
6.2.1 进行比较和分析的数据集和实验
6.2.2 对单音素或者三音素的状态进行建模
6.2.3 越深越好
6.2.4 利用相邻的语音帧
6.2.5 预训练
6.2.6 训练数据的标注质量的影响
6.2.7 调整转移概率
6.3 基于KL距离的隐马尔可夫模型
7 训练和解码的加速
7.1 训练加速
7.1.1 使用多GPU流水线反向传播
7.1.2 异步随机梯度下降
7.1.3 增广拉格朗日算法及乘子方向交替算法
7.1.4 减小模型规模
7.1.5 其他方法
7.2 加速解码
7.2.1 并行计算
7.2.2 稀疏网络
7.2.3 低秩近似
7.2.4 用大尺寸DNN训练小尺寸DNN
7.2.5 多帧DNN
8 深度神经网络序列鉴别性训练
8.1 序列鉴别性训练准则
8.1.1 最大相互信息
8.1.2 增强型MM I
8.1.3 最小音素错误/状态级最小贝叶斯风险
8.1.4 统一的公式
8.2 具体实现中的考量
8.2.1 词图产生
8.2.2 词图补偿
8.2.3 帧平滑
8.2.4 学习率调整
8.2.5 训练准则选择
8.2.6 其他考量
8.3 噪声对比估计
8.3.1 将概率密度估计问题转换为二分类设计问题
8.3.2 拓展到未归一化的模型
8.3.3 在深度学习网络训练中应用噪声对比估计算法
第四部分 深度神经网络中的特征表示学习
9 深度神经网络中的特征表示学习
9.1 特征和分类器的联合学习
9.2 特征层级
9.3 使用随意输入特征的灵活性
9.4 特征的鲁棒性
9.4.1 对说话人变化的鲁棒性
9.4.2 对环境变化的鲁棒性
9.5 对环境的鲁棒性
9.5.1 对噪声的鲁棒性
9.5.2 对语速变化的鲁棒性
9.6 缺乏严重信号失真情况下的推广能力
10 深度神经网络和混合高斯模型的融合
10.1 在GMM-HMM系统中使用由DNN衍生的特征
10.1.1 使用Tandem和瓶颈特征的GMM-HMM模型
10.1.2 DNN-HMM混合系统与采用深度特征的GMM-HMM系统的比较
10.2 识别结果融合技术
10.2.1 识别错误票选降低技术(ROVER)
10.2.2 分段条件随机场(SCARF)
10.2.3 最小贝叶斯风险词图融合
10.3 帧级别的声学分数融合
10.4 多流语音识别
11 深度神经网络的自适应技术
11.1 深度神经网络中的自适应问题
11.2 线性变换
11.2.1 线性输入网络
11.2.2 线性输出网络
11.3 线性隐层网络
11.4 保守训练
11.4.1 L2正则项
11.4.2 KL距离正则项
11.4.3 减少每个说话人的模型开销
11.5 子空间方法
11.5.1 通过主成分分析构建子空间
11.5.2 噪声感知、说话人感知及设备感知训练
11.5.3 张量
11.6 DNN说话人自适应的效果
11.6.1 基于KL距离的正则化方法
11.6.2 说话人感知训练
第五部分 先进的深度学习模型
12 深度神经网络中的表征共享和迁移
12.1 多任务和迁移学习
12.1.1 多任务学习
12.1.2 迁移学习
12.2 多语言和跨语言语音识别
12.2.1 基于Tandem或瓶颈特征的跨语言语音识别
12.2.2 共享隐层的多语言深度神经网络
12.2.3 跨语言模型迁移
12.3 语音识别中深度神经网络的多目标学习
12.3.1 使用多任务学习的鲁棒语音识别
12.3.2 使用多任务学习改善音素识别
12.3.3 同时识别音素和字素(graphemes)
12.4 使用视听信息的鲁棒语音识别
13 循环神经网络及相关模型
13.1 介绍
13.2 基本循环神经网络中的状态-空间公式
13.3 沿时反向传播学习算法
13.3.1 最小化目标函数
13.3.2 误差项的递归计算
13.3.3 循环神经网络权重的更新
13.4 一种用于学习循环神经网络的原始对偶技术
13.4.1 循环神经网络学习的难点
13.4.2 回声状态(Echo-State)性质及其充分条件
13.4.3 将循环神经网络的学习转化为带约束的优化问题
13.4.4 一种用于学习RNN的原始对偶方法
13.5 结合长短时记忆单元(LSTM)的循环神经网络
13.5.1 动机与应用
13.5.2 长短时记忆单元的神经元架构
13.5.3 LSTM-RNN的训练
13.6 循环神经网络的对比分析
13.6.1 信息流方向的对比:自上而下还是自下而上
13.6.2 信息表征的对比:集中式还是分布式
13.6.3 解释能力的对比:隐含层推断还是端到端学习
13.6.4 参数化方式的对比:吝啬参数集合还是大规模参数矩阵
13.6.5 模型学习方法的对比:变分推理还是梯度下降
13.6.6 识别正确率的比较
13.7 讨论
14 计算型网络[1]
14.1 计算型网络
14.2 前向计算
14.3 模型训练
14.4 典型的计算节点
14.4.1 无操作数的计算节点
14.4.2 含一个操作数的计算节点
14.4.3 含两个操作数的计算节点
14.4.4 用来计算统计量的计算节点类型
14.5 卷积神经网络
14.6 循环连接
14.6.1 只在循环中一个接一个地处理样本
14.6.2 同时处理多个句子
14.6.3 创建任意的循环神经网络
15 总结及未来研究方向
15.1 路线图
15.1.1 语音识别中的深度神经网络启蒙
15.1.2 深度神经网络训练和解码加速
15.1.3 序列鉴别性训练
15.1.4 特征处理
15.1.5 自适应
15.1.6 多任务和迁移学习
15.1.7 卷积神经网络
15.1.8 循环神经网络和长短时记忆神经网络
15.1.9 其他深度模型
15.2 技术前沿和未来方向
15.2.1 技术前沿简析
15.2.2 未来方向
作者及译者简介
术语缩写
符号
1 简介
1.1 自动语音识别:更好的沟通之桥
1.1.1 人类之间的交流
1.1.2 人机交流
1.2 语音识别系统的基本结构
1.3 全书结构
1.3.1 第一部分:传统声学模型
1.3.2 第二部分:深度神经网络
1.3.3 第三部分:语音识别中的DNN-HMM混合系统
1.3.4 第四部分:深度神经网络中的特征表示学习
1.3.5 第五部分:高级的深度模型
第一部分 传统声学模型
2 混合高斯模型
2.1 随机变量
2.2 高斯分布和混合高斯随机变量
2.3 参数估计
2.4 采用混合高斯分布对语音特征建模
3 隐马尔可夫模型及其变体
3.1 介绍
3.2 马尔可夫链
3.3 序列与模型
3.3.1 隐马尔可夫模型的性质
3.3.2 隐马尔可夫模型的仿真
3.3.3 隐马尔可夫模型似然度的计算
3.3.4 计算似然度的高效算法
3.3.5 前向与后向递归式的证明
3.4 期望最大化算法及其在学习HMM参数中的应用
3.4.1 期望最大化算法介绍
3.4.2 使用EM算法来学习HMM参数——Baum-Welch算法
3.5 用于解码HMM状态序列的维特比算法
3.5.1 动态规划和维特比算法
3.5.2 用于解码HMM状态的动态规划算法
3.6 隐马尔可夫模型和生成语音识别模型的变体
3.6.1 用于语音识别的GMM-HMM模型
3.6.2 基于轨迹和隐藏动态模型的语音建模和识别
3.6.3 使用生成模型HMM及其变体解决语音识别问题
0 条评论
回复 删除
下一页