背景资料
首先将上篇介绍语音合成流程的文章进行总结,便于理解后面的原理介绍:
步骤1:将语素(文本)转换为音素
“It was early spring” -> [IH1, T, ., W, AA1,...而通过音素的音频剪辑,我们可以轻易地获取这两个数据。
Deep Voice运用了分割模型来获取每个音素的音频剪辑。...如下图所示:
分割模型预测了音素在一组音频剪辑中的发声位置和时长
数据构成
分割模型真正有趣的部分在于其预测的不是每个独立音素的位置,而实际是预测了每组音素对的位置。...140 hz), (EH, 0.07s, 141 hz), ... ]
标签(Y)
对应文本的真实语音剪辑
这样,我们就将语音合成的各个步骤过了一遍,由此便可以进行语音合成了。...(T, 0.07s, 141 hz), ... ]
4、训练语音合成
Input(X)
[(HH, 0.05s, 140 hz), (EH, 0.07s, 141 hz), ... ]
标签(Y)
文本对应的真实语音剪辑