首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵

一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵

作者头像
新智元
发布于 2023-09-19 01:24:46
发布于 2023-09-19 01:24:46
4390
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:桃子 润

【新智元导读】图中万物皆能动!谷歌团队最新提出的「生成图像动力学」,能将静态图片转化为动态的、无缝循环的视频,甚至还可以交互。

快看,轻轻一拉,玫瑰动就起来了。

拖着叶子往左一拉,这颗松柏向同样的方向移动。

还有世界各种物体的图片,随手一拉,瞬间活灵活现。

这便是谷歌团队最新研究,让你的手变成「魔法金手指」,万物皆可,一触即动。

https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf

在这篇论文中,谷歌提出了「Generative Image Dynamics」,通过对图像空间先验进行建模,然后训练模型预测「神经随机运动纹理」。

最后就实现了,与单个图像交互,甚至可以生成一个无限循环的视频。

未来,艺术家们的想象力不再受限于传统的框架,一切皆有可能在这个动态的图像空间实现。

图中万物,「活」起来了

世界中万物的运动, 是多模态的。

院子里晾晒的衣服,随着风前后摆动。

街边的挂着的大红灯笼,在空中摇摆。

还有窗帘边睡觉的小猫,肚子呼吸的起伏,好慵懒。

这些运动并通常是可以预见的:蜡烛会以某种方式燃烧,树木会随着风摇曳,树叶会沙沙作响...

拿起一张照片,或许研究人员就可以想象到,拍摄时它运动的样子。

鉴于当前生成模型的发展,特别是扩散模型,使得人们能够对高度丰富和复杂的分布进行建模。

这让许多以往不可能的应用成为可能,比如文本生成任意逼真的图像。除了在图像领域大展身手,扩散模型同样可以在视频领域建模。

由此,谷歌团队在这项研究中,对图像空间场景运动的生成先验进行建模,即单个图像中所有像素的运动。

是根据从大量真实视频序列中自动提取的运动轨迹,来进行模型训练。

以输入图像为条件,训练后的模型预测「神经随机运动纹理」:一组运动基础系数,用于描述每个像素未来的轨迹。

谷歌研究人员将研究范围限定在,具有自然摆动动态的真实世界场景,如随风飘动的树木和花朵,因此选择傅立叶级数作为基函数。

然后,使用扩散模型来预测「神经随机运动纹理」,模型每次只生成一个频率的系数,但会在不同频段之间协调这些预测。

由此产生的频率空间纹理,可以转化为密集的长距离像素运动轨迹,可用于合成未来帧,将静态图像转化为逼真的动画。

接下来,具体看看是如何实现的?

技术介绍

基于单张图片

,研究人员的目标是生成长度为T的视频

,这段视频能够呈现动态的树木、花朵,或者是在微风中摇曳的蜡烛火焰等。

研究人员的构架的的系统由两个模块组成:「动作预测模块」和「基于图像的渲染模块」。

首先,研究人员使用「潜在扩散模型」为输入图片

预测一个神经随机运动纹理

它是输入图像中每个像素运动轨迹的频率表示。

第二步,使用逆离散傅立叶变换将预测出的随机运动纹理转化为一系列运动位移场(motion displacement fields)

这些运动位移场将用于确定每个输入像素在每一个未来时间步长的位置。

有了这些预测的运动场,研究人员的渲染模块使用基于图像的渲染技术,从输入的RGB图像中拾取编码特征,并通过图像合成网络将这些拾取的特征解码为输出帧。

神经随机运动纹理

运动纹理

之前的研究中,运动纹理定义了一系列时变的2D位移映射( displacement map)

其中,每个像素坐标p,从输入图像

中的2D位移向量定义了该像素在未来时间t的位置。

为了在时间t生成一个未来帧,可以使用相应的位移映射,从

中拾取像素,从而得到一个前向变形的图像:

随机运动纹理

正如之前在计算机图形研究中所证明的,许多自然运动,特别是振荡运动,可以描述为一小组谐振子(harmonic oscillators)的叠加,这些谐振子用不同的频率、振幅和相位表示。

一种引入运动的随机性的方法是整合噪声场。但正如之前研究结果表明的,直接在预测的运动场的空间和时间域内添加随机噪声通常会导致不现实或不稳定的动画。

更进一步,采用上面定义的时间域内的运动纹理意味着需要预测T个2D位移场,才能生成一个包含T帧的视频片段。为了避免预测如此大的输出表示,许多先前的动画方法要么自回归地生成视频帧,要么通过额外的时间嵌入独立预测每个未来的输出帧。

然而,这两种策略都不能确保生成的视频帧在长期内具有时间上的一致性,而且都可能产生随时间漂移或发散的视频。

为了解决上述问题,研究人员在频率域中表示输入场景的每像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一种多模态的图像到图像的转换任务。

研究人员采用潜在扩散模型(LDM)生成由一个4K通道的2D运动光谱图组成的随机运动纹理,其中K << T是建模的频率数,而在每个频率上,研究人员需要四个标量来表示x和y维度的复傅立叶系数。

下图展示了这些神经随机运动纹理。

那么,应该如何选择研究人员表示的 K 输出频率呢?实时动画之前的研究说明,大多数自然振荡运动主要由低频分量(low-frequency component)组成。

为了验证这一假设,研究人员计算了从1000个随机抽样的5秒真实视频剪辑中提取出来的运动的平均功率谱。如下图左图所示,功率主要集中在低频分量上。

动作的频谱随着频率的增加呈指数下降。这表明大多数自然振动动作确实可以由低频项很好地表示。

在实践中,研究人员发现前K=16个傅里叶系数足以在一系列真实视频和场景中真实地重现原始的自然动作。

使用扩散模型预测动作

研究人员选择潜在扩散模型(LDM)作为研究人员的动作预测模块的核心,因为LDM在保持生成质量的同时,比像素空间扩散模型更加计算高效。

一个标准的LDM主要包括两个模块:

1.一个变分自编码器(VAE)通过编码器z = E(I)将输入图像压缩到潜在空间,然后通过解码器I = D(z)从潜在特征中重构输入。

2.一个基于U-Net的扩散模型,这个模型学会从高斯随机噪声开始迭代地去噪潜在特征。

研究人员的训练不是应用于输入图像,而是应用于来自真实视频序列的随机动作纹理,这些纹理被编码然后在预定义的方差时间表中扩散n步以产生噪声潜在变量zn。

频率自适应归一化(Frequency adaptive normalization)

研究人员观察到一个问题,随机动作纹理在频率上具有特定的分布特性。上图的左侧图所示,研究人员的动作纹理的幅度范围从0到100,并且随着频率的增加大致呈指数衰减。

由于扩散模型需要输出值位于0和1之间以实现稳定的训练和去噪,因此研究人员必须在用它们进行训练之前归一化从真实视频中提取的S系数。

如果研究人员根据图像宽度和高度将S系数的幅度缩放到[0,1],那么在较高频率处几乎所有的系数都会接近于零,上图(右侧)所示。

在这样的数据上训练出的模型可能会产生不准确的动作,因为在推理过程中,即使是很小的预测误差也可能在反归一化后导致很大的相对误差,当归一化的S系数的幅度非常接近于零时。

为了解决这个问题,研究人员采用了一种简单但有效的频率自适应归一化技术。具体而言,研究人员首先根据从训练集中计算的统计数据独立地对每个频率处的傅里叶系数进行归一化。

频率协调去噪(Frequency-coordinated denoising)

预测具有K个频率带的随机动作纹理S的直接方法是从标准扩散U-Net输出一个具有4K通道的张量。

然而,训练一个模型以产生如此大量的通道往往会产生过度平滑和不准确的输出。

另一种方法是通过向LDM注入额外的频率嵌入来独立预测每个单独频率处的动作光谱图,但这会导致频率域中的不相关预测,从而产生不真实的动作。

因此,研究人员提出了下图中所示的频率协调去噪策略。具体来说,给定一个输入图像I0,研究人员首先训练一个LDM来预测具有四个通道的每个单独频率的随机动作纹理图,其中研究人员将额外的频率嵌入和时间步嵌入一起注入到LDM网络中。

基于图像的渲染

研究人员进一步描述如何利用为给定输入图像I0预测的随机运动纹理S来渲染未来时刻t的帧ˆIt。首先,研究人员使用逆时域FFT(快速傅里叶变换)在每个像素点p处计算运动轨迹场

这些运动轨迹场决定了每一个输入像素在未来每一个时间步长的位置。为了生成未来的帧It,研究人员采用深度图像基渲染技术,并执行使用预测的运动场的前向扭曲(splatting)来扭曲编码的I0,如下图所示。

由于前向扭曲可能导致图像出现空洞,以及多个源像素可能映射到相同的输出2D位置,研究人员采用了先前在帧插值研究中提出的特征金字塔Softmax扭曲策略。

研究人员共同训练特征提取器和合成网络,用从真实视频中随机抽取的起始和目标帧,其中研究人员使用从I0到It的估计流场来扭曲I0的编码特征,并用VGG感知损失对预测的ˆIt进行监督。

如上图所示,与直接平均扭曲和基线深度扭曲方法相比,研究人员的运动感知特征扭曲生成了一个没有空洞或者人工痕迹的帧。

进一步的扩展应用

研究人员进一步展示了利用研究人员提出的运动表示和动画流程,为单张静态图像添加动态效果的应用。

图像到视频

研究人员的系统通过首先从输入图像预测出一个神经随机运动纹理,并通过应用研究人员基于图像的渲染模块到从随机运动纹理派生出的运动位移场,实现了单张静态图片的动画生成。

由于研究人员明确地对场景运动进行了建模,这允许研究人员通过线性插值运动位移场来生成慢动作视频,并通过调整预测的随机运动纹理系数的振幅来放大(或缩小)动画运动。

无缝循环

有时生成具有无缝循环运动的视频是非常有用的,意味着视频开始和结束之间没有外观或运动的不连续性。

不幸的是,很难找到一个大量的无缝循环视频的训练集。因此,研究人员设计了一种方法,使用研究人员的运动扩散模型,该模型训练在常规的非循环视频片段上,以产生无缝循环的视频。

受近期有关图像编辑指导研究的启发,研究人员的方法是一种运动自引导技术,该技术使用明确的循环约束来引导运动去噪采样过程。

具体来说,在推断阶段的每个迭代去噪步骤中,研究人员在标准的无分类器引导旁边加入了一个额外的运动引导信号,其中研究人员强制每个像素在开始和结束帧的位置和速度尽可能相似。

从单一图像生成可交互的动画

振荡物体的观察视频中的图像空间运动谱近似于该物体的物理振动模态基础。

模态形状捕获了物体在不同频率下的振荡动态,因此物体振动模式的图像空间投影可以用于模拟物体对用户定义的力(如戳或拉)的反应。

因此,研究人员采用了之前研究的模态分析技术,该技术假设物体的运动可以由一组谐振子的叠加来解释。

这使得研究人员将物体的物理响应的图像空间二维运动位移场写为傅里叶谱系数与每个模拟时间步骤t的复模态坐标,以及时间t的加权和。

实验评估

研究团队对最新方法,与基线方法在未见视频片段测试集上进行了定量比较。

结果发现,谷歌的方法在图像和视频合成质量方面都显著优于先前的单图像动画基线。

具体来说,谷歌的FVD和DT-FVD距离要低得多,这表明这一方法生成的视频更加真实且时间上更加连贯。

更进一步地,图6显示了不同方法生成的视频的滑动窗口 FID 和滑动窗口 DT-FVD 距离。

由于谷歌采用了全局随机运动纹理表示,其方法生成的视频在时间上更加一致,并且不会随着时间的推移而发生漂移或退化。

另外,谷歌团队通过2种方式,对自己的方法和基线生成的视频进行可视化定性比较。

首先,展示了生成视频的X-t时空切片,如图7所示。

谷歌生成的视频动态,与相应真实参考视频(第二列)中观察到的运动模式更为相似。随机I2V和MCVD等基线无法随着时间的推移真实地模拟外观和运动。

我们还通过可视化预测图像

及其在时间t =128时相应的运动位移场,定性比较不同方法中各个生成的帧和运动的质量。

与其他方法相比,谷歌生成的方法生成的帧表现出较少的伪影和失真,相应的二维运动场与从相应的真实视频中估算出的参考位移场最为相似。

消融研究:从表2中观察到,与完整模型相比,所有更简单或替代的配置都会导致性能更差。

作者介绍

Zhengqi Li

Zhengqi Li是谷歌研究院的一名研究科学家。他的研究兴趣包括,3D/4D计算机视觉、基于图像的渲染和计算摄影,尤其是in the wild图像和视频。他在康奈尔大学获得了计算机科学博士学位,导师是Noah Snavely。

他是CVPR 2019最佳论文荣誉提名奖、2020年谷歌博士奖学金、2020年奥多比研究奖学金、2021年百度全球人工智能100强中国新星奖和CVPR 2023最佳论文荣誉奖的获得者。

参考资料:

https://generative-dynamics.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-17 12:36,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
生成图像动力学:Generative Image Dynamics
生成模型,特别是条件扩散模型,使我们能够模拟高度丰富和复杂的分布,甚至是以文本为条件的真实图像分布。这种能力使许多以前不可能实现的应用成为可能,例如以文本为条件生成任意、多样且逼真的图像内容。在这些图像模型取得成功之后,最近的研究表明,其他领域的建模,如视频和三维几何领域,也同样适用于下游应用。
用户1324186
2023/09/24
2.1K0
生成图像动力学:Generative Image Dynamics
一拖一拽,小猫活了!Netflix等新作爆火,噪声扭曲算法让运动控制更简单
在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。
新智元
2025/02/04
1010
一拖一拽,小猫活了!Netflix等新作爆火,噪声扭曲算法让运动控制更简单
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力,但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观,还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。
AIGC 先锋科技
2025/02/07
2980
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
人工智能研究人员从静止图像创建逼真的循环视频
开发一种将单张照片变成可信视频的方法一直是该领域的一个挑战。华盛顿大学和 Facebook 的研究人员使用深度学习将静止图像转换为逼真的动画循环视频。
GPUS Lady
2021/07/12
1.1K0
万字长文 | Sora技术解析报告
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
NewBeeNLP
2024/03/07
1.7K0
万字长文 | Sora技术解析报告
用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型
视频超分辨率 (VSR) 旨在从给定的低分辨率 (LR) 视频序列重建高分辨率 (HR) 视频。得益于深度学习技术的快速发展,VSR 在过去十年中取得了长足的进步,出现了包括 EDVR 等基于滑动窗口的方法、BasicVSR 等基于递归的方法以及最新的基于 Transformer 的方法。然而,上述大多数方法都假设在 LR 和 HR 视频之间进行简单的退化。因此,这种 VSR 模型很难推广到真实世界的 LR 视频中,因为真实世界的退化要复杂得多。
用户1324186
2024/02/29
1.1K0
用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
---- 新智元报道   编辑:LRS 【新智元导读】让图片配合你的音频出演,配套sd-webui插件已发布! 随着数字人概念的火爆、生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题。 不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题,比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。 最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一
新智元
2023/05/09
1.3K0
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。
新智元
2024/03/29
3170
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
SIGGRAPH 2023|上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」
---- 新智元报道   编辑:LRS 【新智元导读】AIGC进入3D时代,用文字就能生成超逼真数字人! 随着大型语言模型(LLM)、扩散(Diffusion)等技术的发展,ChatGPT、Midjourney等产品的诞生掀起了新一波的AI热潮,生成式AI也成为备受关注的话题。 与文本和图像不同,3D生成仍处于技术探索阶段。 2022年年底,Google、NVIDIA和微软相继推出了自己的3D生成工作,但大多基于先进的神经辐射场(NeRF)隐式表达,与工业界3D软件如Unity、Unreal Engi
新智元
2023/05/22
5590
SIGGRAPH 2023|上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.5K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
DeepFake 新高度:一阶运动模型让“万物皆可动”
DeepFake一方面被骂作“AI毒瘤”,另一方面在B站上大行其道。最近,这项技术又用在了在线视频会议身上。
AI科技评论
2020/04/27
2.7K0
DeepFake从未如此真实!英伟达最新提出的「隐式扭曲」到底有多强?
近年来,计算机视觉领域的生成技术越来越强,相应「伪造」技术也越来越成熟,从DeepFake换脸到动作模拟,让人难辨真假。
新智元
2023/01/06
6600
DeepFake从未如此真实!英伟达最新提出的「隐式扭曲」到底有多强?
拍照手抖有救了!DeblurGAN消除运动模糊效果惊人 | 附论文+代码
安妮 编译自 ArXiv 量子位 出品 | 公众号 QbitAI 十图九糊。 置身异国街道,感受着陌生环境里熙熙攘攘的街道,你掏出手机想留住这一刻。 好嘞,一、二、三,咔嚓。 由于行人和车辆都在运动,
量子位
2018/03/23
2.6K0
拍照手抖有救了!DeblurGAN消除运动模糊效果惊人 | 附论文+代码
苹果发布新模型GAUDI:只用文字就能生成无限制3D模型!
---- 新智元报道   编辑:LRS 【新智元导读】最近苹果发布了一个新模型GAUDI,能直接从文字生成3D模型,NeRF的相机位置还不受限制! 2020年开始大火的神经辐射场(NeRF)技术,仅需几张2D图片,就能合成出高质量的3D模型场景。 有人畅想,NeRF可能是实现元宇宙的一项重要技术基础,各个大厂纷纷上马项目进行研究,比如英伟达的AI研究人员展示过从照片中创建3D物体,谷歌也依靠NeRF来实现沉浸式视图或渲染3D人物。 NeRF可以从2D图像中生成3D场景,OpenAI的DALL-E
新智元
2022/08/26
8340
苹果发布新模型GAUDI:只用文字就能生成无限制3D模型!
每日学术速递9.17
1.OmnimatteRF: Robust Omnimatte with 3D Background Modeling(ICCV 2023)
AiCharm
2023/09/19
2160
每日学术速递9.17
带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频
只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。
新智元
2023/09/09
2860
带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频
LeCun团队新作:在世界模型中导航
最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。
机器之心
2025/02/14
1040
LeCun团队新作:在世界模型中导航
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。
机器之心
2024/04/26
2420
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
近期在AI生成内容(AIGC)领域的快速发展标志着向实现人工通用智能(AGI)迈出的关键一步,特别是继OpenAI在2023年初推出大型语言模型(LLM)GPT-4之后。AIGC 吸引了学术界和工业界的广泛关注,例如基于LLM的对话代理ChatGPT[1],以及文本转图像(T2I)模型如DALLLE[2],Midjourney[3]和Stable Diffusion[4]。这些成果对文本转视频(T2V)领域产生了重大影响,OpenAI的Sora[5]在图1中展示的出色能力便是例证。
AIGC 先锋科技
2024/07/08
3910
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
7.6K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
推荐阅读
生成图像动力学:Generative Image Dynamics
2.1K0
一拖一拽,小猫活了!Netflix等新作爆火,噪声扭曲算法让运动控制更简单
1010
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
2980
人工智能研究人员从静止图像创建逼真的循环视频
1.1K0
万字长文 | Sora技术解析报告
1.7K0
用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型
1.1K0
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
1.3K0
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
3170
SIGGRAPH 2023|上科大等发布DreamFace:只需文本即可生成「超写实3D数字人」
5590
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.5K1
DeepFake 新高度:一阶运动模型让“万物皆可动”
2.7K0
DeepFake从未如此真实!英伟达最新提出的「隐式扭曲」到底有多强?
6600
拍照手抖有救了!DeblurGAN消除运动模糊效果惊人 | 附论文+代码
2.6K0
苹果发布新模型GAUDI:只用文字就能生成无限制3D模型!
8340
每日学术速递9.17
2160
带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频
2860
LeCun团队新作:在世界模型中导航
1040
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
2420
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
3910
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
7.6K0
相关推荐
生成图像动力学:Generative Image Dynamics
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档