首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

作者头像
量子位
发布于 2024-03-20 06:09:50
发布于 2024-03-20 06:09:50
3030
举报
文章被收录于专栏:量子位量子位

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展:

基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。

Stable Video Diffusion(SVD)是Stability AI此前推出的高分辨率视频生成模型。也就是说,此番登场的SV3D首次将视频扩散模型应用到了3D生成领域

官方表示,基于此,SV3D大大提高了3D生成的质量和视图一致性。

模型权重依然开源,不过仅可用于非商业用途,想要商用的话还得买个Stability AI会员~

话不多说,还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型,SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D:

  • SV3D_u:基于单张图像生成轨道视频。
  • SV3D_p:扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。

研究人员还改进了3D优化技术:采用由粗到细的训练策略,优化NeRF和DMTet网格来生成3D对象。

他们还设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成3D模型的质量和一致性。

同时,SV3D引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面,SV3D包含以下关键组成部分:

  • UNet:SV3D是在SVD的基础上构建的,包含一个多层UNet,其中每一层都有一系列残差块(包括3D卷积层)和两个分别处理空间和时间信息的Transformer模块。
  • 条件输入:输入图像通过VAE编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到UNet中;输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
  • 相机轨迹编码:SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中,相机以规律间隔的方位角围绕对象;动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力。

此外,SV3D在生成过程中采用CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D,图像分辨率为575×576,视场角为33.8度。论文透露,所有三种模型(SV3D_u,SV3D_c,SV3D_p)在4个节点上训练了6天左右,每个节点配备8个80GB的A100 GPU

实验结果

在新视角合成(NVS)和3D重建方面,SV3D超过了现有其他方法,达到SOTA。

从定性比较的结果来看,SV3D生成的多视角试图,细节更丰富,更接近与原始输入图像。也就是说,SV3D在理解和重构物体的3D结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。

这样的成果,引发了不少网友的感慨:

可以想象,在未来6-12个月内,3D生成技术将会被用到游戏和视频项目中。

评论区也总少不了一些大胆的想法……

并且项目开源嘛,已经有第一波小伙伴玩上了,在4090上就能跑起来。

如果你也有第一手实测体会,欢迎在评论区分享~

参考链接: [1]https://twitter.com/StabilityAI/status/1769817136799855098 [2]https://stability.ai/news/introducing-stable-video-3d [3]https://sv3d.github.io/index.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stability AI又有新动作了!这次给我们端上来的是全新的3D生成模型Stable Video 3D(SV3D)。
新智元
2024/03/25
3200
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
机器之心
2024/03/26
7740
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI CEO Emad Mostaque最新推文,四段视频引人无数遐想。
量子位
2024/01/23
2310
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
一点人工一点智能
2024/04/18
3.6K0
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
AGI世界模拟迎来统一框架!首篇综述打通2D→视频→3D→4D生成全链路!
理解并复现现实世界是通用人工智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。本综述提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。具体而言,本综述从2D生成(外观)开始,随后转向视频(外观+动态)和3D生成(外观+几何),最后以整合所有维度的4D生成为终点。据我们所知,这是首次尝试在单一框架内系统性地统一2D、视频、3D和4D生成的研究。为指导未来研究,全面回顾了数据集、评估指标和未来方向,并为新研究者提供了启发。本综述作为桥梁,推动了多模态生成模型和现实世界模拟在统一框架内的研究进展。
AI生成未来
2025/08/27
1700
AGI世界模拟迎来统一框架!首篇综述打通2D→视频→3D→4D生成全链路!
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
从单张图像创建具有灵活视角的3D场景,在直接获取3D数据成本高或不切实际的应用领域(如考古保护和自主导航)中具有变革性潜力。然而,这一任务本质上仍然存在困难:单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是,在推理到极端视角(例如,180°旋转)时,之前被遮挡或完全不存在的内容可能会出现,从而引入显著的不确定性。
AIGC 先锋科技
2025/04/18
1630
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。
机器之心
2024/04/26
2760
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
腾讯混元3D-1.0:文本到3D和图像到3D的统一框架 !
3D生成长期以来一直是计算机视觉和计算机图形学领域的热门且活跃的话题,其应用范围广泛,包括游戏、电影、电子商务和机器人等领域。对于艺术家来说,创建高质量的3D资产是一个耗时且费力的过程,因此,自动生成成为研究行人长期的目标。该领域早期的努力主要集中在特定类别内的无条件生成,这些生成受3D表示和数据限制。大型语言模型(LLMs)的扩展定律在图像和视频生成方面的成功,为这一长期愿景指明了方向。然而,由于3D资产的表达性质和可用的综合数据集有限,实现类似进展在3D资产生成方面仍然具有挑战性。目前最大的现有3D数据集Objarverse-xl只包含1000万资产,与语言、图像和视频任务的可用的巨大数据集相比,相形见绌。利用2D生成模型的先验知识是一个有前景的方法,以解决这个问题。
未来先知
2024/12/20
5580
腾讯混元3D-1.0:文本到3D和图像到3D的统一框架 !
2D 扩散模型 + Nerf,实现文本生成 3D 模型
在数十亿图像-文本对上训练的扩散模型,在文字生成图像的任务上大获成功。但是,如果想要将这种方法应用于 3D 生成(synthesis),需要对大规模的 3D 数据集进行标注并且在其上面训练,除此之外,还需对 3D 数据去噪的有效架构,但目前这两者都不存在。在这项工作中,作者通过使用预训练的 2D 文本-图像的扩散模型,实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数,这也允许了2D扩散模型作为先验,用以优化参数图像生成器。在类似 DeepDream 的过程中使用这种损失函数,作者通过梯度下降优化随机初始化的 3D 模型(NeRF),使其从随机角度的 2D 渲染均能让损失函数值较低。
用户1324186
2022/11/07
2.8K0
2D 扩散模型 + Nerf,实现文本生成 3D 模型
3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建
比如说,在上图的左侧图像中,虽然人脑无法创建毫米级精确的3D模型,但人类的视觉系统可以结合少量图像的信息,在脑海中形成一个连贯的3D表现,包括老虎的复杂面部特征或形成玩具火车的积木的排列,即使是对于完全遮挡的部分也是如此。
新智元
2024/03/25
5410
3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建
X-Dreamer :扩散模型的高质量3D生成
本篇分享论文X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation,通过弥合 Text-to-2D 和 Text-to-3D 生成领域之间的差距来创建高质量的 3D 资产。
公众号机器学习与AI生成创作
2023/12/14
3530
X-Dreamer :扩散模型的高质量3D生成
Stability videoAI 的生成视频模型 | 盘点OpenAI 的瓜一次吃个够
要说这几天除了奥特曼(Altman)与OpenAI董事会的爱恨情仇以外,最为震撼的就是Stability AI发布的Video版本了,早在2023年7月,其实就已经发布了SDXL0.9的生态,而仅仅一个季度,就带来了SVD版本。
疯狂的KK
2023/11/23
2750
Stability videoAI 的生成视频模型 | 盘点OpenAI 的瓜一次吃个够
MVDream:利用扩散模型实现多视角的3D生成
最近的一些工作表明,预训练的2D生成模型可以应用于3D生成。如Dreamfusion和Magic3D,它们利用2D扩散模型作为优化3D重构方法(如NeRF)的监督,通过得分蒸馏采样(SDS)进行优化。然而,由于这些模型仅具有2D知识,它们只能提供单视图的监督,生成的图像容易受到多视图一致性问题的困扰,其结果通常包含严重的瑕疵。
用户1324186
2023/09/24
3.3K0
MVDream:利用扩散模型实现多视角的3D生成
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
在图像生成模型技术的推动下,视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式,但先前的工作没有探究数据选择的影响。然而,训练数据分布对生成模型的影响是不可忽视的。此外,对于生成式图像建模,已经知道在大型和多样化的数据集上进行预训练,然后在小型但质量更高的数据集上进行微调,可以显著提高性能。然而,之前的视频建模方法往往借鉴了来自图像领域的技术,而对于数据和训练策略的影响,即在低分辨率视频上进行预训练再在高质量数据集上微调,还需要进一步研究。
用户1324186
2023/12/11
1.4K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。
AIGC 先锋科技
2025/02/20
2820
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
全景宇宙黑科技!HunyuanWorld 1.0 发布:一键生成360°可交互3D世界
报告链接:https://arxiv.org/pdf/2507.21809 Git 链接:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0 体验链接:https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan.tencent.com%2FsceneTo3D
AI生成未来
2025/08/27
1800
全景宇宙黑科技!HunyuanWorld 1.0 发布:一键生成360°可交互3D世界
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。
量子位
2023/11/23
3510
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
新视角合成(NVS)在计算机视觉和图形学领域有着数十年的历史,旨在从多个输入图像或视频中生成场景的视角。最近,三维高斯分裂(3DGS)[18]在生成具有高效渲染管线的照片级渲染方面表现出色。然而,在远离现有视角渲染高质量的新视角仍然具有很大的挑战性,这在稀疏视图设置中经常遇到,因为低采样区域的信息不足。如图1所示,当只有三个输入视图时,会出现明显的椭球形和空洞状的伪影。由于实际中存在这些低质量的渲染结果,因此有必要增强3DGS,以确保其在实际应用中的可行性。
AIGC 先锋科技
2024/11/21
5250
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
近日,Stability AI发布消息,公开3D重建新方法SPAR3D的设计原理、代码、模型权重等。
新智元
2025/02/15
2080
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型
github:https://github.com/Stability-AI/stablediffusion
小爷毛毛_卓寿杰
2023/07/09
1.1K0
【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型
推荐阅读
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
3200
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
7740
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
2310
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
3.6K0
AGI世界模拟迎来统一框架!首篇综述打通2D→视频→3D→4D生成全链路!
1700
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
1630
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
2760
腾讯混元3D-1.0:文本到3D和图像到3D的统一框架 !
5580
2D 扩散模型 + Nerf,实现文本生成 3D 模型
2.8K0
3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建
5410
X-Dreamer :扩散模型的高质量3D生成
3530
Stability videoAI 的生成视频模型 | 盘点OpenAI 的瓜一次吃个够
2750
MVDream:利用扩散模型实现多视角的3D生成
3.3K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
1.4K0
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
2820
全景宇宙黑科技!HunyuanWorld 1.0 发布:一键生成360°可交互3D世界
1800
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
3510
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
5250
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
2080
【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型
1.1K0
相关推荐
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档