选自arXiv
机器之心编译
参与:路雪、李亚洲
结合语音合成模型、视频生成模型等,本论文研究了如何使用原始文本生成人读随机文本的虚拟视频,且口型完全对照,更加自然逼真。
目前存在大量关于使用机器学习方法生成图像的研究(Isola et al.,2016)。同样,语音合成方面也有显著进展(Sotelo et al.,2017)。不过,将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景(close shot)视频集合(带对应的转录文本)上进行训练。结果就是构建了一个系统,可利用任意文本生成语音,并根据现有视频中嘴型区域进行修改,以使其更加自然逼真。视频示例:http://ritheshkumar.com/obamanet。我们以 Barack Obama 为例展示了该方法,因为他的视频常用于对唇同步方法进行基准测试,但是我们的方法还可用于生成任意人的视频(在可获取数据的前提下)。
2. 相关研究
近期,生成照片级真实感视频领域出现了显著进展(Thies et al., 2016)。具体来说,Karras et al. (2017) 尝试基于音频生成人脸动画。Suwajanakorn et al. (2017) 的研究与我们的研究最接近,但是存在两个重要差异:一,我们用神经网络,而不是传统的计算机视觉模型;二,我们添加了一个文本转语音合成器以构建完整的文本转视频系统。
图 1:我们生成系统的流程图
3 模型描述
3.1 文本转语音系统
我们使用 Char2Wav 架构从输入文本中生成语音,我们使用从视频中提取的音频,加上对应的转录文本,来训练语音合成系统。
3.2 关键点生成
给定输入音频,该模块会预测口型的表达。我们使用谱特征(spectral features)来表示音频。为了计算口型表示,我们需要从面部提取的嘴部关键点,并做归一化处理从而不受图像大小、面部位置、面部旋转、面部大小的影响。归一化在此过程中非常重要,因为它能使生成的关键点兼容于任何视频。然后,我们在归一化处理过的嘴部关键点上利用 PCA 降维,对特征去相关(decorrelate)。我们只使用最重要部分作为口型的表征。
图 2:关键点生成网络
至于网络架构,我们采用 Suwajanakorn 等人在 2017 年论文中使用的同样架构:也就是给定音频特征输入的情况下,使用一个带有时间延迟的 LSTM 网络来预测口型表示。
3.3 视频生成
我们选择视频生成方法背后的动机是近年来 pix2pix(Isola 等人 2016)的成功,它成为了图像到图像转译任务的通用解决方案。该任务属于我们的文章范围,因为我们的目标是,基于嘴部表征,将输入的面部图像(对嘴部做过剪裁的)转译为嘴部区域重绘的输出图像。
为了避免直接以嘴部特征作为 U-Net 架构的表征,我们通过在输入的剪裁图像上绘制嘴部轮廓隐含地作为条件。网络学习利用这种轮廓决定输出的嘴部生成图像。
我们注意到,循环网络生成的关键点随时间没有变化。在给定嘴部关键点信息的情况下,这使得我们能够通过独立合成视频的每一帧,并行完成视频生成。在生成视频帧上,我们不需要任何机制来保持时间上的一致性。
我们在像素空间中,只使用 L1 损失函数来训练该网络,发现该目标足够学习嘴部图像的重绘(in-painting)且不像 pix2pix 原论文中提到的那样需要额外的 GAN。
图 3:视频生成网络
图 4:68 个面部关键点
论文: ObamaNet: Photo-realistic lip-sync from text
链接:https://arxiv.org/abs/1801.01442v1
摘要:我们展示了 ObamaNet,首个利用任意新文本生成音频和照片级真实感唇同步视频的架构。与其他已公开的唇同步方法相反,我们的方法仅使用完全训练的神经模块,不依赖传统的计算机绘图方法。更准确地说,我们使用了三个主要模块:基于 Char2Wav 的文本转语音网络、用于生成与音频同步的嘴特征点的时间延迟 LSTM,和基于 Pix2Pix、用于生成基于特征点的视频帧的网络。
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
领取专属 10元无门槛券
私享最新 技术干货