首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

1张图片,1段音频,生成逼真人脸动画的视频!NTU创新AI视频生成方法:DIRFA

背景

你是否曾经想过,如果你能够通过一段音频和一张图片,就能够生成一个与之匹配的说话的人脸视频?

这样的技术可以用于在数字人、视觉配音、虚拟现实等领域。然而,要实现这样的技术,却并不容易。

因为人脸动画不仅包括准确的唇部运动,还包括丰富的面部表情细节和自然的头部姿态,这些都是由音频中的语音,情感,语调等因素影响的。

近年来,一种典型的方法是静态说话面部生成 ,它仅编辑嘴唇运动,而不考虑其他面部动画(即头部姿势和面部表情)。

另一种方法侧重于动态说话面部生成,其中包括用于建模全脸动画的头部运动,但生成的面部仍然没有表情。

但是这两种方法生成的效果都不尽人意,不能真实的模拟出人的表情和动作。

DIRFA创新方法,生成逼真面部动画

为了解决这些问题,一些来自新加坡南洋理工大学的研究者提出了一种新的方法,名为DIRFA。

DIRFA可以根据音频生成多样化而逼真的人脸动画。DIRFA的核心思想是,利用一个基于变换器的概率映射网络,将音频信号自回归地转换为一个人脸动画序列,这个序列可以表征在音频条件下的人脸动画分布。

为了增加人脸动画的多样性,映射网络使用了一个随机向量作为输入,这个向量可以控制生成的人脸动画的风格。

为了保证人脸动画的真实性,映射网络使用了一个时序偏置掩码,这个掩码可以让网络模拟人脸动画的时序依赖性,从而产生时序平滑的人脸动画序列。

有了生成的人脸动画序列和一个源图像,就可以用一个通用的生成网络,合成逼真的说话的人脸视频。

DIRFA的优势

DIRFA的优势在于,它不需要预先训练一个特定人物的模型,也不需要与音频匹配的视频作为输入,它可以从任意的音频和图像生成说话的人脸视频,而且可以根据不同的随机向量,生成不同风格的人脸动画,从而增加多样性。

DIRFA的效果也非常令人满意,它可以生成具有准确的唇部运动,丰富的面部表情细节和自然的头部姿态的人脸动画,而且可以适应不同的身份,姿态和音频。DIRFA的速度也非常快,它可以实时地生成说话的人脸视频,而且占用的内存和计算资源也很少。

论文地址:

https://arxiv.org/pdf/2304.08945.pdf

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OzxHYFb9-X_KkmTU-W7KJDAA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券