1.MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
标题:MagicProp:通过运动感知外观传播进行基于扩散的视频编辑
作者:Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
文章链接:https://arxiv.org/abs/2309.00908
摘要:
本文解决了在保留视频运动的同时修改视频视觉外观的问题。提出了一种名为 MagicProp 的新颖框架,它将视频编辑过程分为两个阶段:外观编辑和运动感知外观传播。在第一阶段,MagicProp 从输入视频中选择单个帧,并应用图像编辑技术来修改该帧的内容和/或风格。这些技术的灵活性使得能够编辑帧内的任意区域。在第二阶段,MagicProp 使用编辑的帧作为外观参考,并使用自回归渲染方法生成剩余的帧。为了实现这一目标,开发了一种名为 PropDPM 的基于扩散的条件生成模型,该模型通过调节参考外观、目标运动及其先前的外观来合成目标帧。自回归编辑方法可确保生成的视频的时间一致性。总体而言,MagicProp 将图像编辑技术的灵活性与自回归建模的卓越时间一致性相结合,能够在输入视频的任意区域灵活编辑对象类型和美学风格,同时保持跨帧的良好时间一致性。在各种视频编辑场景中的大量实验证明了MagicProp的有效性。
2.ControlMat: A Controlled Generative Approach to Material Capture
标题:ControlMat:一种材料捕获的受控生成方法
作者:Giuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur
文章链接:https://arxiv.org/abs/2309.01700
项目代码:https://gvecchio.com/controlmat/
摘要:
从照片中重建素材是 3D 内容创作民主化的关键组成部分。我们建议利用生成深度网络的最新进展,将这一不适定问题表述为受控综合问题。我们提出了 ControlMat,这是一种方法,给定一张具有不受控制的照明的照片作为输入,调节扩散模型以生成合理的、可平铺的、高分辨率的基于物理的数字材料。我们仔细分析了多通道输出的扩散模型的行为,调整采样过程以融合多尺度信息,并引入滚动扩散以实现高分辨率输出的可平铺性和修补扩散。我们的生成方法进一步允许探索与输入图像相对应的各种材料,从而减轻未知的照明条件。我们证明了我们的方法优于最近的推理和潜在空间优化方法,并仔细验证了我们的扩散过程设计选择。补充材料和其他详细信息可在以下网址获取:此 https URL。
3.AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image Collections(SIGGRAPH Asia 2023)
标题:AniPortraitGAN:从 2D 图像集合生成可动画的 3D 肖像
作者:Yue Wu, Sicheng Xu, Jianfeng Xiang, Fangyun Wei, Qifeng Chen, Jiaolong Yang, Xin Tong
文章链接:https://arxiv.org/abs/2309.02186
项目代码:https://yuewuhkust.github.io/AniPortraitGAN/
摘要:
之前用于人类生成的可动画 3D 感知 GAN 主要关注人类头部或全身。然而,仅头部视频在现实生活中相对罕见,全身生成通常不涉及面部表情控制,并且在生成高质量结果方面仍然面临挑战。针对适用的视频头像,我们提出了一种可动画的 3D 感知 GAN,它可以生成具有可控面部表情、头部姿势和肩膀运动的肖像图像。它是一种在非结构化 2D 图像集合上训练的生成模型,不使用 3D 或视频数据。对于新任务,我们的方法基于生成辐射流形表示,并为其配备可学习的面部和头肩变形。提出了双摄像头渲染和对抗性学习方案来提高生成的人脸质量,这对于肖像图像至关重要。开发了姿势变形处理网络来为长发等具有挑战性的区域生成合理的变形。实验表明,我们的方法在非结构化 2D 图像上进行训练,可以生成多样化且高质量的 3D 肖像,并对不同属性进行所需的控制。