助力高保真跳舞视频合成，华科等推出可控视频生成新框架 UniAnimate

CV君

发布于 2024-06-04 15:43:07

830

发布于 2024-06-04 15:43:07

本文分享论文UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation，助力高保真跳舞视频合成，华科等推出可控视频生成新框架 UniAnimate。

详细信息如下：

论文地址：https://arxiv.org/abs/2406.01188
项目主页：https://unianimate.github.io/

背景介绍

随着人类跳舞视频生成技术的发展，特别是扩散模型的演化，越来越多的研究着眼于如何基于扩散模型生成符合给定参考身份和目标姿态动作序列的高质量逼真视频，并推出了一系列方法如Disco、 MagicAnimate、 Animate Anyone、 Champ等。

虽然取得了令人印象深刻的结果，现有的技术仍存在两个限制：

一是需要额外的参考模型（ReferenceNet）来将参考身份图像与主干视频分支进行表观对齐，而参考模型是主干3D-Unet模型去掉时序模块后的副本网络，大幅增加了优化负担和模型参数；
二是生成的视频时间通常较短（例如24帧），限制了实际应用的可能性。

为了解决这些问题，来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了UniAnimate框架，以实现高效且长时间的人类视频生成。

直接先来看下生成效果：

基于合成图片进行跳舞视频生成：

基于真实图片进行跳舞视频生成：

基于粘土风格图片进行跳舞视频生成：

马斯克跳舞：

基于其他跨域图片进行跳舞视频生成：

Yann LeCun跳舞：

获取更多高清视频示例和原始MP4视频请参考论文的项目主页：https://unianimate.github.io/。

方法简介

不同于之前的方法采用ControlNet-like的架构，需要额外的ReferenceNet来编码参考图像表观特征来进行表观对齐。

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中，然后利用统一的视频扩散模型（Unified Video Diffusion Model）同时处理参考图像与视频主干分支表观对齐和视频去噪任务，实现高效特征对齐和连贯的视频生成。另外，引入了参考图像的姿态图作为额外的参考条件，促进网络学习参考姿态和目标姿态之间的对应关系，实现良好的表观对齐。

其次，研究团队还提出了一种统一的噪声输入，其支持随机噪声输入和基于第一帧的条件噪声输入，随机噪声输入可以配合参考图像和姿态序列生成一段视频，而基于第一帧的条件噪声输入（First Frame Conditioning）则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式，推理时可以通过把前一个视频片段（segment）的最后一帧当作后一个片段的第一帧来进行生成，并以此类推在一个框架中实现长视频生成。

最后，为了进一步高效处理长序列，研究团队探索了基于状态空间模型（Mamba）的时间建模架构，作为原始的计算密集型时序 Transformer的一种替代。

实验发现基于时序Mamba的架构可以取得和时序 Transformer类似的效果，但是需要的显存开销更小。

通过上述改进，UniAnimate可以实现高质量的连续跳舞视频合成，更多细节和实验对比请参考原论文。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

框架