前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学生速递1.17

每日学生速递1.17

作者头像
AiCharm
发布2024-01-22 14:41:03
1060
发布2024-01-22 14:41:03
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

标题:MagicVideo-V2:多阶段高美视频生成

作者:Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng

文章链接:https://arxiv.org/abs/2401.04468

项目代码:https://magicvideov2.github.io/

摘要:

对从文本描述生成高保真视频的需求不断增长,促进了该领域的重要研究。在这项工作中,我们介绍了 MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。受益于这些架构设计,MagicVideo-V2 可以生成具有出色保真度和平滑度的美观、高分辨率视频。通过大规模用户评估,它表现出了优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。

2.Jump Cut Smoothing for Talking Heads

标题:说话头像的跳切平滑

作者:Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang

文章链接:https://arxiv.org/abs/2401.04718

项目代码:https://morphcut.github.io/

摘要:

跳切会给观看体验带来突然的、有时是不必要的改变。我们提出了一个新颖的框架,用于在头部说话视频的背景下平滑这些跳切。我们利用视频中其他源帧中主题的外观,将其与由 DensePose 关键点和面部标志驱动的中级表示融合。为了实现运动,我们在剪切周围的结束帧之间插入关键点和地标。然后,我们使用关键点和源帧的图像转换网络来合成像素。由于关键点可能包含错误,因此我们提出了一种跨模式注意方案,以在每个关键点的多个选项中选择最合适的来源。通过利用这种中级表示,我们的方法可以获得比强大的视频插值基线更强的结果。我们在头部说话视频中的各种跳切上演示了我们的方法,例如剪切填充词、停顿,甚至随机剪切。我们的实验表明,即使在跳跃剪辑中说话头旋转或剧烈移动的挑战性情况下,我们也可以实现无缝过渡。

3.Score Distillation Sampling with Learned Manifold Corrective

标题:使用学习流形校正对蒸馏采样进行评分

作者:Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu

文章链接:https://arxiv.org/abs/2401.05293

摘要:

分数蒸馏采样 (SDS) 是一种最近但已经广泛流行的方法,它依靠图像扩散模型使用文本提示来控制优化问题。在本文中,我们对 SDS 损失函数进行了深入分析,确定了其公式的固有问题,并提出了一个非常简单但有效的解决方案。具体来说,我们将损失分解为不同的因素,并隔离导致噪声梯度的成分。在最初的配方中,使用高文本指导来解决噪音,从而导致不必要的副作用。相反,我们训练一个浅层网络来模仿图像扩散模型的时间步相关的去噪缺陷,以便有效地将其分解出来

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档