人工智能可以根据动画分镜脚本生成动画,发现道路上的坑洼和裂缝,并教四条腿的机器人在跌倒时恢复。但是如何让一个人的演唱风格与另一个人的相适应呢?在论文预印本网站Arxiv.org上发表的一篇论文中,Facebook人工智能研究中心和特拉维夫大学的科学家描述了一个系统,该系统可以直接将一名歌手的声音转换成另一名歌手的声音。更令人印象深刻的是,它是无监督的,这意味着它能够对以前没有遇到过的未分类、未注释的数据执行转换。
研究小组称,他们的模型能够在歌手之间进行5-30分钟的声音转换,这在一定程度上要归功于一项创新的训练计划和数据增强技术。
论文作者写道:“例如,(我们的方法)可以让我们有能力从自己声音的某些局限中解放出来。”"算法不以文字或音符为条件, 不需要不同歌手之间的平行训练数据, 也不使用音频的文字记录来处理任何文本......" 他说。“我们的工作提供了一定的灵活性以及其他声音特征。”
正如研究人员所解释的,他们的方法建立在WaveNet的基础上,WaveNet是谷歌开发的一种自动编码器(一种用于学习无监督数据集表示的人工智能),可以从音频记录的波形生成模型。它还使用了反向翻译,即将一个数据样本转换为目标样本(在本例中,是将一个歌手的声音转换为另一个歌手的声音),然后再将其翻译回来,如果与原始样本不匹配,则调整其下一次尝试。此外,该团队使用的合成样本使用的“虚拟身份”比其他人更接近源歌手,以及一个“混淆网络”,以确保系统仍然不知道歌手。
人工智能的训练分为两个阶段。首先对每个歌手的样本分别应用一个称为softmax重构损失的数学函数,然后混合矢量嵌入得到新歌手的样本。
为了扩充训练数据集,作者通过倒向播放信号和潜移默化地改变相位来转换音频剪辑。“(它)将数据集的大小增加了四倍,”他们写道。“第一个增强创造了一个胡言乱语的歌曲,但仍然可以识别为同一名歌手;第二次增强为训练创造了一个感知上难以区分但新颖的信号。”
在实验中,研究小组收集了两组公开的数据集——斯坦福大学的移动表演数字档案语料库和新加坡国立大学的歌唱和口语语料库(ns48e),其中包含了不同歌手演唱的歌曲。从第一组中,他们随机选择了5名歌手,其中10首歌(他们用来训练AI系统的9首歌);从第二组中,他们选择了12名歌手,每名歌手有4首歌,所有这些歌曲都是他们用来训练的。
接下来,他们让人类评审员以1-5的评分标准来判断生成的声音与目标声音的相似性,并使用一个包含分类系统的自动测试来更客观地评估样本的质量。评审员对转换后的音频平均打分约为4分(认为质量较好),而自动测试发现,生成的样本的识别精度几乎与重构样本一样高。
他们希望以后可以做到在背景音乐的存在下执行转换。
领取专属 10元无门槛券
私享最新 技术干货