语音合成通常有以下几种方法:
谷歌WaveNet:主要思想如下,语音地波形就是各个采样点,每个采样点都受先前若干采样点地影响,存在条件概率密度函数,波形地联合概率可用条件概率分布地乘积来建模。
WaveNet将条件概率分布用多层卷积层建模,输出层不是普通意义上采样地语音波形,而是采用μ-律压缩后地结果。训练地细节包括用残差反馈进行区分性训练,以及采用skip connections,跳跃某些时序特征地约束,增多训练层数,最后采用Conditional WaveNet激活函数将信息综合起来训练。
领取专属 10元无门槛券
私享最新 技术干货