背景
你是否曾经想过,如果你能够通过一段音频和一张图片,就能够生成一个与之匹配的说话的人脸视频?
这样的技术可以用于在数字人、视觉配音、虚拟现实等领域。然而,要实现这样的技术,却并不容易。
因为人脸动画不仅包括准确的唇部运动,还包括丰富的面部表情细节和自然的头部姿态,这些都是由音频中的语音,情感,语调等因素影响的。
近年来,一种典型的方法是静态说话面部生成 ,它仅编辑嘴唇运动,而不考虑其他面部动画(即头部姿势和面部表情)。
另一种方法侧重于动态说话面部生成,其中包括用于建模全脸动画的头部运动,但生成的面部仍然没有表情。
但是这两种方法生成的效果都不尽人意,不能真实的模拟出人的表情和动作。
DIRFA创新方法,生成逼真面部动画
为了解决这些问题,一些来自新加坡南洋理工大学的研究者提出了一种新的方法,名为DIRFA。
DIRFA可以根据音频生成多样化而逼真的人脸动画。DIRFA的核心思想是,利用一个基于变换器的概率映射网络,将音频信号自回归地转换为一个人脸动画序列,这个序列可以表征在音频条件下的人脸动画分布。
为了增加人脸动画的多样性,映射网络使用了一个随机向量作为输入,这个向量可以控制生成的人脸动画的风格。
为了保证人脸动画的真实性,映射网络使用了一个时序偏置掩码,这个掩码可以让网络模拟人脸动画的时序依赖性,从而产生时序平滑的人脸动画序列。
有了生成的人脸动画序列和一个源图像,就可以用一个通用的生成网络,合成逼真的说话的人脸视频。
DIRFA的优势
DIRFA的优势在于,它不需要预先训练一个特定人物的模型,也不需要与音频匹配的视频作为输入,它可以从任意的音频和图像生成说话的人脸视频,而且可以根据不同的随机向量,生成不同风格的人脸动画,从而增加多样性。
DIRFA的效果也非常令人满意,它可以生成具有准确的唇部运动,丰富的面部表情细节和自然的头部姿态的人脸动画,而且可以适应不同的身份,姿态和音频。DIRFA的速度也非常快,它可以实时地生成说话的人脸视频,而且占用的内存和计算资源也很少。
论文地址:
https://arxiv.org/pdf/2304.08945.pdf
领取专属 10元无门槛券
私享最新 技术干货