CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
标题:MagicVideo-V2:多阶段高美视频生成
作者:Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
文章链接:https://arxiv.org/abs/2401.04468
项目代码:https://magicvideov2.github.io/
摘要:
对从文本描述生成高保真视频的需求不断增长,促进了该领域的重要研究。在这项工作中,我们介绍了 MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。受益于这些架构设计,MagicVideo-V2 可以生成具有出色保真度和平滑度的美观、高分辨率视频。通过大规模用户评估,它表现出了优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。
2.Jump Cut Smoothing for Talking Heads
标题:说话头像的跳切平滑
作者:Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
文章链接:https://arxiv.org/abs/2401.04718
项目代码:https://morphcut.github.io/
摘要:
跳切会给观看体验带来突然的、有时是不必要的改变。我们提出了一个新颖的框架,用于在头部说话视频的背景下平滑这些跳切。我们利用视频中其他源帧中主题的外观,将其与由 DensePose 关键点和面部标志驱动的中级表示融合。为了实现运动,我们在剪切周围的结束帧之间插入关键点和地标。然后,我们使用关键点和源帧的图像转换网络来合成像素。由于关键点可能包含错误,因此我们提出了一种跨模式注意方案,以在每个关键点的多个选项中选择最合适的来源。通过利用这种中级表示,我们的方法可以获得比强大的视频插值基线更强的结果。我们在头部说话视频中的各种跳切上演示了我们的方法,例如剪切填充词、停顿,甚至随机剪切。我们的实验表明,即使在跳跃剪辑中说话头旋转或剧烈移动的挑战性情况下,我们也可以实现无缝过渡。
3.Score Distillation Sampling with Learned Manifold Corrective
标题:使用学习流形校正对蒸馏采样进行评分
作者:Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
文章链接:https://arxiv.org/abs/2401.05293
摘要:
分数蒸馏采样 (SDS) 是一种最近但已经广泛流行的方法,它依靠图像扩散模型使用文本提示来控制优化问题。在本文中,我们对 SDS 损失函数进行了深入分析,确定了其公式的固有问题,并提出了一个非常简单但有效的解决方案。具体来说,我们将损失分解为不同的因素,并隔离导致噪声梯度的成分。在最初的配方中,使用高文本指导来解决噪音,从而导致不必要的副作用。相反,我们训练一个浅层网络来模仿图像扩散模型的时间步相关的去噪缺陷,以便有效地将其分解出来