开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

量子位

发布于 2024-03-20 06:09:50

发布于 2024-03-20 06:09:50

3030

举报

文章被收录于专栏：量子位量子位

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

Stable Video Diffusion（SVD）是Stability AI此前推出的高分辨率视频生成模型。也就是说，此番登场的SV3D首次将视频扩散模型应用到了3D生成领域。

官方表示，基于此，SV3D大大提高了3D生成的质量和视图一致性。

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个Stability AI会员~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型，SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D：

SV3D_u：基于单张图像生成轨道视频。

SV3D_p：扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成3D模型的质量和一致性。

同时，SV3D引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面，SV3D包含以下关键组成部分：

UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer模块。
条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
相机轨迹编码：SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。

此外，SV3D在生成过程中采用CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D，图像分辨率为575×576，视场角为33.8度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在4个节点上训练了6天左右，每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成（NVS）和3D重建方面，SV3D超过了现有其他方法，达到SOTA。

从定性比较的结果来看，SV3D生成的多视角试图，细节更丰富，更接近与原始输入图像。也就是说，SV3D在理解和重构物体的3D结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

这样的成果，引发了不少网友的感慨：

可以想象，在未来6-12个月内，3D生成技术将会被用到游戏和视频项目中。

评论区也总少不了一些大胆的想法……

并且项目开源嘛，已经有第一波小伙伴玩上了，在4090上就能跑起来。

如果你也有第一手实测体会，欢迎在评论区分享~

参考链接： [1]https://twitter.com/StabilityAI/status/1769817136799855098 [2]https://stability.ai/news/introducing-stable-video-3d [3]https://sv3d.github.io/index.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-03-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

Stable Video 3D震撼上线，视频扩散模型史诗级提升！4090可跑，权重已开放

模型视频优化 video 对象

Stability AI又有新动作了！这次给我们端上来的是全新的3D生成模型Stable Video 3D（SV3D）。

新智元

2024/03/25

3200

Stable Video 3D震撼上线，视频扩散模型史诗级提升！4090可跑，权重已开放

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

视频优化 video 论文模型

昨日，Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后，又为社区带来了 3D 视频生成大模型「Stable Video 3D」（简称 SV3D）。

机器之心

2024/03/26

7740

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

基础模型视频机器人公众号

Stability AI CEO Emad Mostaque最新推文，四段视频引人无数遐想。

量子位

2024/01/23

2310

Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

InstantMesh：利用稀疏视图大规模重建模型从单张图像高效生成3D网格

点云建模计算机视觉机器人视觉

摘要：本文提出了InstantMesh，这是一个用于从单视角图像生成即时3D网格的前馈框架，具有当前非常优秀的生成质量和显著的训练可扩展性。

一点人工一点智能

2024/04/18

3.6K0

InstantMesh：利用稀疏视图大规模重建模型从单张图像高效生成3D网格

AGI世界模拟迎来统一框架！首篇综述打通2D→视频→3D→4D生成全链路！

数据优化框架模型视频

理解并复现现实世界是通用人工智能（AGI）研究中的一个关键挑战。为实现这一目标，许多现有方法（例如世界模型）旨在捕捉支配物理世界的基本原理，从而实现更精确的模拟和有意义的交互。然而，当前的方法通常将不同模态（包括2D（图像）、视频、3D和4D表示）视为独立领域，忽略了它们之间的相互依赖性。此外，这些方法通常专注于现实的孤立维度，而没有系统地整合它们之间的联系。本综述提出了一种多模态生成模型的统一综述，探讨了现实世界模拟中数据维度的演进。具体而言，本综述从2D生成（外观）开始，随后转向视频（外观+动态）和3D生成（外观+几何），最后以整合所有维度的4D生成为终点。据我们所知，这是首次尝试在单一框架内系统性地统一2D、视频、3D和4D生成的研究。为指导未来研究，全面回顾了数据集、评估指标和未来方向，并为新研究者提供了启发。本综述作为桥梁，推动了多模态生成模型和现实世界模拟在统一框架内的研究进展。

AI生成未来

2025/08/27

1700

AGI世界模拟迎来统一框架！首篇综述打通2D→视频→3D→4D生成全链路！

FlexWorld：引入视频到视频扩散模型与渐进扩展过程，从单张图像高效生成灵活视角3D 场景！

视频数据渲染基础模型

从单张图像创建具有灵活视角的3D场景，在直接获取3D数据成本高或不切实际的应用领域（如考古保护和自主导航）中具有变革性潜力。然而，这一任务本质上仍然存在困难：单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是，在推理到极端视角（例如，180°旋转）时，之前被遮挡或完全不存在的内容可能会出现，从而引入显著的不确定性。

AIGC 先锋科技

2025/04/18

1630

FlexWorld：引入视频到视频扩散模型与渐进扩展过程，从单张图像高效生成灵活视角3D 场景！

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

模型设计视频数据 openai

过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务：视频生成。近日，OpenAI 安全系统（Safety Systems）负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。

机器之心

2024/04/26

2760

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

腾讯混元3D-1.0:文本到3D和图像到3D的统一框架！

腾讯重构框架模型数据

3D生成长期以来一直是计算机视觉和计算机图形学领域的热门且活跃的话题，其应用范围广泛，包括游戏、电影、电子商务和机器人等领域。对于艺术家来说，创建高质量的3D资产是一个耗时且费力的过程，因此，自动生成成为研究行人长期的目标。该领域早期的努力主要集中在特定类别内的无条件生成，这些生成受3D表示和数据限制。大型语言模型（LLMs）的扩展定律在图像和视频生成方面的成功，为这一长期愿景指明了方向。然而，由于3D资产的表达性质和可用的综合数据集有限，实现类似进展在3D资产生成方面仍然具有挑战性。目前最大的现有3D数据集Objarverse-xl只包含1000万资产，与语言、图像和视频任务的可用的巨大数据集相比，相形见绌。利用2D生成模型的先验知识是一个有前景的方法，以解决这个问题。

未来先知

2024/12/20

5580

腾讯混元3D-1.0:文本到3D和图像到3D的统一框架！

2D 扩散模型 + Nerf，实现文本生成 3D 模型

在数十亿图像-文本对上训练的扩散模型，在文字生成图像的任务上大获成功。但是，如果想要将这种方法应用于 3D 生成（synthesis），需要对大规模的 3D 数据集进行标注并且在其上面训练，除此之外，还需对 3D 数据去噪的有效架构，但目前这两者都不存在。在这项工作中，作者通过使用预训练的 2D 文本-图像的扩散模型，实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数，这也允许了2D扩散模型作为先验，用以优化参数图像生成器。在类似 DeepDream 的过程中使用这种损失函数，作者通过梯度下降优化随机初始化的 3D 模型（NeRF），使其从随机角度的 2D 渲染均能让损失函数值较低。

用户1324186

2022/11/07

2.8K0

2D 扩散模型 + Nerf，实现文本生成 3D 模型

3D重建范式变革！最新模型MVDiffusion++：无需相机姿态，即可实现高清3D模型重建

模型系统性能对象架构

比如说，在上图的左侧图像中，虽然人脑无法创建毫米级精确的3D模型，但人类的视觉系统可以结合少量图像的信息，在脑海中形成一个连贯的3D表现，包括老虎的复杂面部特征或形成玩具火车的积木的排列，即使是对于完全遮挡的部分也是如此。

新智元

2024/03/25

5410

3D重建范式变革！最新模型MVDiffusion++：无需相机姿态，即可实现高清3D模型重建

X-Dreamer ：扩散模型的高质量3D生成

渲染对象论文模型优化

本篇分享论文X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation，通过弥合 Text-to-2D 和 Text-to-3D 生成领域之间的差距来创建高质量的 3D 资产。

公众号机器学习与AI生成创作

2023/12/14

3530

X-Dreamer ：扩散模型的高质量3D生成

Stability videoAI 的生成视频模型 | 盘点OpenAI 的瓜一次吃个够

openai 模型设计视频研发

要说这几天除了奥特曼(Altman)与OpenAI董事会的爱恨情仇以外，最为震撼的就是Stability AI发布的Video版本了，早在2023年7月，其实就已经发布了SDXL0.9的生态，而仅仅一个季度，就带来了SVD版本。

疯狂的KK

2023/11/23

2750

Stability videoAI 的生成视频模型 | 盘点OpenAI 的瓜一次吃个够

MVDream：利用扩散模型实现多视角的3D生成

渲染工作模型视频数据

最近的一些工作表明，预训练的2D生成模型可以应用于3D生成。如Dreamfusion和Magic3D，它们利用2D扩散模型作为优化3D重构方法（如NeRF）的监督，通过得分蒸馏采样（SDS）进行优化。然而，由于这些模型仅具有2D知识，它们只能提供单视图的监督，生成的图像容易受到多视图一致性问题的困扰，其结果通常包含严重的瑕疵。

用户1324186

2023/09/24

3.3K0

MVDream：利用扩散模型实现多视角的3D生成

Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集

video 模型视频数据性能

在图像生成模型技术的推动下，视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式，但先前的工作没有探究数据选择的影响。然而，训练数据分布对生成模型的影响是不可忽视的。此外，对于生成式图像建模，已经知道在大型和多样化的数据集上进行预训练，然后在小型但质量更高的数据集上进行微调，可以显著提高性能。然而，之前的视频建模方法往往借鉴了来自图像领域的技术，而对于数据和训练策略的影响，即在低分辨率视频上进行预训练再在高质量数据集上微调，还需要进一步研究。

用户1324186

2023/12/11

1.4K0

Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集

TikTokDance5K 数据集助力 DreamDance，利用 2D 姿态丰富 3D 线索，仅用骨架动作序列动画化人体图像！

工作模型视频数据动画

人类图像动画是指根据一系列动作控制信号，从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展，但人类图像动画仍然具有挑战性，因为它需要对帧内连贯性和帧间一致性有全面的理解。

AIGC 先锋科技

2025/02/20

2820

TikTokDance5K 数据集助力 DreamDance，利用 2D 姿态丰富 3D 线索，仅用骨架动作序列动画化人体图像！

全景宇宙黑科技！HunyuanWorld 1.0 发布：一键生成360°可交互3D世界

视频渲染缓存科技模型

报告链接：https://arxiv.org/pdf/2507.21809 Git 链接：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0 体验链接：https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan.tencent.com%2FsceneTo3D

AI生成未来

2025/08/27

1800

全景宇宙黑科技！HunyuanWorld 1.0 发布：一键生成360°可交互3D世界

Stable Video Diffusion问世！3D合成功能引关注，网友：进步太快

video 论文模型视频数据

根据外部评估，官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。

量子位

2023/11/23

3510

Stable Video Diffusion问世！3D合成功能引关注，网友：进步太快

增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果！

模型视频数据性能渲染

新视角合成（NVS）在计算机视觉和图形学领域有着数十年的历史，旨在从多个输入图像或视频中生成场景的视角。最近，三维高斯分裂（3DGS）[18]在生成具有高效渲染管线的照片级渲染方面表现出色。然而，在远离现有视角渲染高质量的新视角仍然具有很大的挑战性，这在稀疏视图设置中经常遇到，因为低采样区域的信息不足。如图1所示，当只有三个输入视图时，会出现明显的椭球形和空洞状的伪影。由于实际中存在这些低质量的渲染结果，因此有必要增强3DGS，以确保其在实际应用中的可行性。

AIGC 先锋科技

2024/11/21

5250

增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果！

单图秒变3D对象，还可交互实时编辑！Stability AI中科大校友新作

渲染对象模型设计数据

近日，Stability AI发布消息，公开3D重建新方法SPAR3D的设计原理、代码、模型权重等。

新智元

2025/02/15

2080

单图秒变3D对象，还可交互实时编辑！Stability AI中科大校友新作

【stability.ai】SDXL：改进高分辨率图像合成的潜在扩散模型

工作架构模型网络性能

github：https://github.com/Stability-AI/stablediffusion

小爷毛毛_卓寿杰

2023/07/09

1.1K0

【stability.ai】SDXL：改进高分辨率图像合成的潜在扩散模型

相关推荐

Stable Video 3D震撼上线，视频扩散模型史诗级提升！4090可跑，权重已开放

更多 >

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

将视频扩散模型用于3D生成

实验结果

交个朋友

加入腾讯云官网粉丝站

蹲全网底价单品享第一手活动信息

加入讨论

的问答专区 >

大数据开发工程师擅长4个领域

相关课程

一站式学习中心 >

云开发微搭低代码平台-一人构建企业级应用实战训练营

腾讯云微搭低代码

AI代码助手快速上手训练营

腾讯云代码助手

AI绘画-StableDiffusion图像生成

腾讯混元生图

高性能应用服务