在今年的声学、语音与信号处理国际会议(ICASSP)上,某中心的文本转语音(TTS)团队发表了四篇论文。这些论文均涉及语音转换(在保持韵律特征的同时将一种合成语音转换为另一种)、数据增强,或两者兼而有之。
该团队的研究对于某机构的语音助手至关重要,因为这是其与用户沟通的方式。其开发的模型也通过其云服务中的文本转语音服务向客户开放。
以下是对这四篇论文核心内容的概述:
1. 《语音过滤器:使用语音转换作为后处理模块进行少样本文本转语音说话人自适应》
本文针对少样本说话人自适应问题——即仅从少量训练样本中学习新的合成语音。论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。
其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。该TTS模型是时长可控的,这意味着输入文本会被编码以指示每个音素在输出语音中的持续时间。这使研究人员能够创建两个平行的训练数据语料库:一个由120位不同说话人的真实样本组成,另一个则是TTS模型生成的但时长与多说话人样本相匹配的合成语音。
语音过滤器在平行语料库上训练后,对于少样本学习,只需在新说话人数据上进行微调。实验表明,这种方法产生的语音质量与使用30倍数据训练的传统模型相当。
2. 《使用数据增强进行跨说话人风格迁移的文本转语音》
这篇论文展示了如何构建一个能够进行富有表现力语音合成的TTS模型,即使目标语音的唯一可用训练数据是中性语音。其思路是:首先训练一个语音转换模型,将其他语音中的富有表现力的语音样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。
该TTS模型接收两个输入:文本序列和风格向量。在训练期间,文本序列传递给TTS模型,目标语音样本的谱图传递给一个参考编码器以产生风格嵌入。在推理时,虽然没有输入谱图,但研究人员证明可以通过向模型输入预先计算的风格嵌入来控制输出风格。
根据使用MUSHRA感知量表的人类评估,相对于基准模型,新模型在14位不同说话人上将合成语音与真实语音之间感知到的风格相似度差距平均缩小了58%。
3. 《针对低资源表达性文本转语音的分布增强》
本文考虑了缺乏新语音训练数据的情况。目标是通过置换现有样本的文本产生新的文本,并重新组合相应语音样本的片段来产生新的语音样本。这并未增加训练目标的声学多样性,但增加了训练输入的语言学多样性。
为确保合成的训练示例在句法上不会过于不连贯,研究人员为输入文本构建了句法分析树,然后在树之间交换句法上等效的分支。交换声学信号中相应部分需要文本和信号之间良好的对齐,这由现有的强制对齐模型完成。
为防止TTS模型对合成示例过度偏向,训练时还在输入中加入了一个特殊标记,用于指示两个现有样本被融合在一起的位置。模型将学习优先处理来自真实样本内部的音素序列,而非跨越融合样本边界的序列。在推理时,该标记的值在所有输入中均设为0。
人类评估表明,新模型在五个不同数据集上的语音输出质量均优于基准模型。
4. 《使用标准化流进行文本无关的非平行多对多语音转换》
在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用于TTS)应用于语音转换问题。与大多数深度学习模型一样,标准化流学习生成输入数据的向量表示的函数。不同之处在于,这些函数是可逆的,因此可以从表示中恢复输入。团队假设,保留更多输入信息将产生更好的语音转换,早期实验证实了这一假设。
该流程的输入包括源谱图、音素嵌入、说话人身份嵌入、声学信号的基本频率以及指示音频帧是否发声的标志。流程将输入映射到特定应用域中的音素频率分布。
通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。由于流程是可逆的,只要其他模型输入(音素嵌入、说话人ID等)可用,表示空间中的向量就可以映射回一组源输入。为了使用标准化流进行语音转换,研究人员只需在此反向映射过程中替换说话人。
研究人员在两种实验设置下进行了检验:一种是语音转换模型同时接收文本序列和谱图作为输入,另一种是仅接收谱图。在后一种情况下,预训练的标准化流模型显著优于基准模型。直接从训练数据中学习音素分布的标准化流模型表现较差,这说明了预训练步骤的重要性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。