SF-GAN (acoustic model)包括三个鉴别器,分别处理 low (0∼40), middle (20∼60) and high (40∼80),这种方法具有数据增强效果,并且还降低了计算复杂性。三个鉴别器结构相同,参数不同。每个鉴别器包括3个2D卷积层和ReLU激活函数,线性作为最终的输出。
ML-GAN包括七个鉴别器分别为 0.25s, 0.5s, 0.75s,1.0s长度的。
训练和合成
声学模型训练了6w步,Adam优化器参数为(β1 = 0.9, β2 = 0.98, e =10^-9.