语音专利1
2022-11-26 10:37:55 14 举报
1
作者其他创作
大纲/内容
将第三隐藏特征和说话人特征一并送入自适应解码器:将说话人特征作为条件,将第三隐藏特征作为Q、K、V输入多个自适应自注意力(ASA)模块和卷积网络,预测梅尔频谱
获取目标说话人语音数据,并进行预处理
将初始音素特征,说话人特征,音素时长和音节边界输入自适应编码器:基于初步音素特征特征生成音素级第一隐藏特征,根据第一隐藏特征和音节边界预测音节时长并生成帧级别第一隐藏特征,输入ACA模块生成第二隐藏特征
输入文本预测目标说话人的梅尔频谱,并且将预测结果送入声码器,合成目标说话人语音
冻结除了自适应编码器,预测器和解码器内部CLN层权重和新说话人特征以外的所有参数。将目标说话人数据送入模型训练,并快速收敛
获取训练数据集并处理
构建初始语音合成模型,包括自适应编码器、自适应预测器组和自适应解码器
基于所有预测值和目标值进行计算损失,对语音合成模型进行预训练直至收敛
将文本序列和说话人标签输入模型,生成初始音素特征和说话人特征
将第二隐藏特征、音高、能量和说话人特征输入自适应预测器:基于第二隐藏特征和说话人特征预测音高和能量,并基于音高、能量和第二隐藏特征,生成第三隐藏特征
0 条评论
下一页