文章/答案/技术大牛

发布

社区首页 >专栏 >Gamba：仅需0.05秒让一张图片生成高质量3D模型！（新加坡国立大学&天工AI开源）

Gamba：仅需0.05秒让一张图片生成高质量3D模型！（新加坡国立大学&天工AI开源）

AI进修生

发布于 2024-12-02 10:53:09

66301

代码可运行

文章被收录于专栏：AI进修生AI进修生

运行总次数：1

代码可运行

Aitrainee | 公众号：AI进修生
🌟第一个具有 3DGS 的端到端可训练单视图重建模型、在 0.05秒内从单个图像输入重建 3D 对象。将 Gaussian Splatting 与 Mamba 结合，实现单视图 3D 重建。

Github：https://github.com/SkyworkAI/Gamba

Hi，这里是Aitrainee，欢迎阅读本期新文章。

把单张图片重建为3D模型的话，在许多工业领域应该有很多实际的作用，Gamba这种方法可以从单个的快照中生成AR或者VR的内容，还能通过单眼感知帮助开发自动驾驶车辆路径规划。

单视图3D重建神器Gamba，提速1000倍！让你一张图片生成高质量3D模型。

我们之前的一些单视图3d重建方法，比如评分蒸馏采样（Score Distillation Sampling，SDS）需要耗时的逐实例优化过程才能生成单个对象，并且会因预训练的2D扩散模型中的偏差而产生多面问题等伪影。此外，之前的方法主要采用神经辐射场（NeRF），其高维多层感知和低效的体积渲染极大地限制了在计算预算有限的情况下的实际应用。

▲与大型重建模型的定性比较。

Gamba：实现端到端单视图重建流水线

昆仑万维颜水成团队提出了一种端到端单视图重建流水线，它结合了3D高斯散布和Mamba，实现了快速重建。Gamba方法通过一种迭代的重建策略来提高重建的速度和质量。

▲ 图(a)：Gamba一种端到端、前馈单视图重建管道，它将 3D 高斯 Splatting 与 Mamba 结合起来以实现快速重建。(b)：3DGS 迭代重建与 Gamba 顺序预测模式之间的关系。

图示展示了Gamba方法的工作原理和与现有方法的关系：

• Gamba方法：展示了从单张图像输入到3D模型输出的整个流程，使用3D高斯散布和Mamba算法。
• 3DGS重建与生成策略：展示了3D高斯散布迭代重建和Gamba顺序预测模式的关系，强调了Gamba方法在重建过程中逐步优化细节的能力。

细节解析

1. 图像输入与Gamba方法：
- • 输入是一张图像。
- • Gamba方法结合3D高斯散布和Mamba算法实现快速重建。
2. 3D高斯散布重建策略：
- • 通过克隆和分裂操作实现3D高斯散布的优化。
- • 在迭代过程中不断优化3D模型的细节。
3. 顺序生成策略：
- • 每一步生成一个新的3D标记，通过迭代块逐步优化生成的3D模型。
- • 将之前生成的标记作为输入，生成新的3D标记，实现细节的逐步完善。

Gamba方法相对于现有方法的优势，通过快速、端到端的重建过程提高了效率，并且能够生成高质量的3D模型。

Gamba模型解决速度慢和内存消耗大问题

▲ 图2：Gamba整体架构。Gamba 将单视图图像及其相机姿态作为输入来预测给定主体的 3D 高斯泼溅。训练监督仅通过重建损失应用于渲染的多视图图像。

Gamba是一种旨在实现高效单视图3D重建的模型，解决了现有方法在单张图片重建3D资产时速度慢和内存消耗大的问题。该模型强调了两个主要创新点：

1. 高效的骨干设计：引入了基于Mamba的GambaFormer网络，将3D Gaussian Splatting（3DGS）重建建模为线性可扩展的序列预测，从而能够处理大量高斯点。
2. 稳健的高斯约束：通过从多视图掩码中导出径向掩码约束，消除了训练中对3D点云热身监督的需求。

该模型在Objaverse上进行了训练，并在GSO数据集上对现有的优化方法和前馈3D重建方法进行了评估，是唯一使用3DGS进行端到端训练的单视图重建模型。

图表解释

这张图展示了Gamba模型的整体架构和Gamba块的细节。

1. 总体架构 (a)：
- • 图像分词器 (Image Tokenizer)：首先将输入图像分割成令牌。
- • Gamba Blocks：这些块逐层处理令牌，模型以线性顺序扩展。
- • 3DGS解码器 (3DGS Decoder)：使用生成的3DGS参数进行解码。
- • 3D GS渲染器 (3D GS Render)：根据相机姿态生成新的视图，进行监督学习。
2. Gamba块 (b)：
- • Drop：删除部分相机姿态和条件图像令牌。
- • Mamba块 (Mamba Block)：处理令牌并进行前馈计算。
- • Prepend：在处理前添加先前层的3DGS令牌。
- • Linear：将令牌线性化，以便在下一个Gamba块中处理。

通俗解释

Gamba模型的设计类似于让多个“小脑袋”（即Gamba Blocks）逐步处理输入图像的不同信息，并最终生成高效的3D重建结果。通过引入Mamba-based GambaFormer网络和稳健的高斯约束，模型不仅提高了重建速度，还减少了内存消耗。

对比说明

• 传统方法：基于SDS的神经3D表示方法虽然效果不错，但需要长时间的优化和大量内存。
• Gamba模型：通过高效的骨干设计和稳健的高斯约束，Gamba在保证重建质量的同时，大幅提升了速度（在NVIDIA A100 GPU上仅需0.05秒），相较于传统优化方法快了约1000倍。

Gamba模型的这些创新使其在单视图3D重建任务中表现突出，不仅生成效果优异，还具有显著的速度优势，非常适合实际应用。

Gamba生成逼真纹理

▲ 与基于 Zero-1-to-3 [27] 的单视图 3D 重建方法的比较，包括仅前馈方法 One-2-3-45 [26] 和基于优化的 DreamGaussian [48]。

这张图展示了不同单视图3D重建方法在重建各种物体时的效果对比：

• 输入（Input）：左侧第一列显示了用于重建的单视图图片，包含蘑菇、摩托车、心脏、皮卡丘和跑车。
• One-2-3-4-5：第二列展示了One-2-3-4-5方法的重建结果，可以看到，这种方法生成的模型存在明显的几何失真和纹理模糊问题。
• DreamGaussian：第三列展示了DreamGaussian方法的重建结果，虽然这种方法在某些方面表现有所提升，但仍存在多视图不一致和模糊纹理的问题。
• Gamba：第四列展示了Gamba方法的重建结果。与其他方法相比，Gamba在几何形状和纹理细节上表现得更为出色，生成的3D模型更加逼真和稳定，几乎没有失真和模糊现象。

整体来看，Gamba显著优于其他单视图3D重建方法，在保持合理几何形状和生成逼真纹理方面具有明显优势。

Gamba 0.05秒推理

使用的是单个NVIDIA A100 GPU（80GB），Gamba方法在速度上显著优于基于优化的方法（如Zero-1-to-3），其推理时间仅为0.05秒，比其他快速前向传导模型也有显著优势，这归功于其高效的主干设计。

▲Mamba 与 Transformer 的内存消耗随标记长度变化的比较。

下面提供官方的文档介绍、相关资源、部署教程等，进一步支撑你的行动，以提升本文的帮助力。

Gamba

这是 Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction 的官方实现。

项目主页 | Arxiv | 预训练权重

为什么选择Gamba

🔥 从单个图像输入重建3D对象，只需50毫秒。

🔥 首个可端到端训练的单视图重建模型，采用3DGS技术。

https://github.com/SkyworkAI/Gamba/assets/44775545/21bdc4e7-e070-446a-8fb7-401c9ee69921

安装

# 需要安装xformers！请参阅https://github.com/facebookresearch/xformers了解详细信息。
# 例如，我们使用torch 2.1.0 + cuda 11.8
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0--index-url https://download.pytorch.org/whl/cu118
pip install causal-conv1d==1.2.0 mamba-ssm
git clone--recursive git@github.com:SkyworkAI/Gamba.git
# 修改过的高斯点撒算法（+ 深度，alpha渲染）
pip install ./submodules/diff-gaussian-rasterization
# 辐射多边形掩码，仅在训练中使用
pip install ./submodules/rad-polygon-mask

# 用于网格提取
pip install git+https://github.com/NVlabs/nvdiffrast

# 其他依赖项
pip install -r requirements.txt

预训练权重

我们的预训练权重可以从 huggingface 下载。一个更大的模型即将推出！

例如，要下载用于推理的bf16模型：

mkdir checkpoint && cd checkpoint
wget https://huggingface.co/florinshen/Gamba/resolve/main/gamba_ep399.pth
cd ..

推理

推理大约需要1.5GB的GPU内存，耗时50毫秒。

bash scripts/test.sh

更多选项，请查看选项。

训练

我们将很快更新训练教程。

这项工作基于许多优秀的研究和开源项目

• LGM
• OpenLRM
• gaussian-splatting 和 diff-gaussian-rasterization
• nvdiffrast
• dearpygui
• tyro

另一个统一3D生成项目 MVGamba。代码和预训练权重也将很快发布。

论文：https://arxiv.org/abs/2403.18795

网站：https://florinshen.github.io/gamba-project/

Github：https://github.com/SkyworkAI/Gamba

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-01，如有侵权请联系 cloudcommunity@tencent.com 删除

优化

本文分享自 AI进修生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

2013

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

1060

60页PPT全解：DeepSeek系列论文技术要点整理

1970

HumanGaussian开源：基于Gaussian Splatting，高质量 3D 人体生成新框架

开源 gaussian 框架模型优化

在 3D 生成领域，根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成，此前的一些典型工作（比如 DreamFusion [1] ）提出了分数蒸馏采样 (Score Distillation Sampling)，通过优化 3D 场景的神经表达参数，使其在各个视角下渲染的 2D 图片符合大规模预训练的文生图模型分布。然而，尽管这一类方法在单个物体上取得了不错的效果，我们还是很难对具有复杂关节的细粒度人体进行精确建模。

机器之心

2023/12/12

6730

HumanGaussian开源：基于Gaussian Splatting，高质量 3D 人体生成新框架

导师爆料：这篇CVPR最佳学生论文，从想法到成稿只用一个月，源自业余灵感

论文模型渲染工作解决方案

北京时间 6 月 20 日凌晨，CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。其中，获得最佳论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。

机器之心

2024/06/27

1570

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

渲染产品模型数据优化

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。

机器之心

2023/12/21

1.3K0

CVPR 2024 | VastGaussian：用于大型场景重建的3D高斯

优化渲染论文内存数据

基于NeRF的方法在处理大型场景时，渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈，难以扩展到大型场景。

用户1324186

2024/04/12

1.5K0

单张图像探索3D奇境：Wonderland让高质量3D场景生成更高效

视频数据研发优化模型

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力，他们专注于视频生成以及3D/4D场景生成与重建的研究，致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。

机器之心

2025/02/03

680

NeRFs和3D高斯溅射技术如何重塑SLAM：综述

内存数据系统渲染地图

文章：How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey

点云PCL博主

2024/06/21

1.6K0

FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割！

渲染二进制集合数据优化

本研究旨在解决准确分割3D高斯分水（3D-GS） FROM 2D Mask 的挑战。传统方法通常依靠迭代梯度下降为每个高斯分配唯一的标签，导致长久的优化和次优解。

未来先知

2024/12/30

2030

VR-Robo：视觉机器人导航和运动的Real-Sim-Real框架

计算机视觉机器人视觉机器人

地址：https://mp.weixin.qq.com/s/Mlik8mEHYSb2XmJXqXlKNQ

一点人工一点智能

2025/02/17

1290

突破次元壁！新加坡国立发布GenXD：拿捏真实感3D、4D动态场景

模型设计视频数据优化

在我们熟知的2D图像和视频生成技术蓬勃发展之际，3D和4D的世界依然是前沿科技的「无人区」。

新智元

2025/02/14

850

ICLR 2025｜高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

性能压缩渲染模型算法

是否还在担心大规模场景训练和压缩耗时太长、显存开销太大？是否还在苦恼重建出的建筑物和道路表面破碎不堪？是否还在困扰如何定量衡量大规模场景几何重建的精确程度？

机器之心

2025/02/06

1430

ICLR 2025｜高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

告别3D高斯Splatting算法，带神经补偿的频谱剪枝高斯场SUNDAE开源了

渲染开源内存算法网络

本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室（EVOL Lab）负责人赵健、清华大学智能产业研究院（AIR）助理教授赵昊等。

机器之心

2024/05/22

4020

告别3D高斯Splatting算法，带神经补偿的频谱剪枝高斯场SUNDAE开源了

分割一切「3D高斯」版来了：几毫秒完成3D分割、千倍加速

渲染对象论文模型数据

今年 4 月，Meta 发布「分割一切（SAM）」AI 模型，这项成果不仅成为很多 CV 研究者心中的年度论文，更是在 ICCV 2023 上斩获最佳论文提名。

机器之心

2023/12/12

5960

CVPR2024 | HUGS：人体高斯溅射

渲染工作模型视频数据

真实渲染和人体动态是一个重要的研究领域，具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL，直接从视频生成3D化身来解决这些问题，这些模型具有高效光栅化和适应未见变形的能力。然而，参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身，通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色，超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而，它们也有不足，特别是在训练和渲染效率方面较低。

用户1324186

2024/05/31

5530

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

对象模型数据算法网络

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

机器之心

2024/06/17

2290

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

每日学术速递11.29

渲染对象工作模型数据

1.Compact 3D Gaussian Representation for Radiance Field

AiCharm

2023/11/30

2500

GauHuman开源：基于Gaussian Splatting，高质量3D人体快速重建和实时渲染框架

渲染开源 gaussian 框架视频

图1 GauHuman可以快速重建(1~2分钟)和实时渲染(高达189帧每秒) 高质量3D人体。

机器之心

2024/01/11

8820

GauHuman开源：基于Gaussian Splatting，高质量3D人体快速重建和实时渲染框架

每日学术速递2.20

模型数据性能架构论文

1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

AiCharm

2025/02/21

1240

纯RGB输入，解决户外场景SLAM！误差降低至9.8%，港科广开源 | ICRA 2025

开源 rgb 网络系统优化

在自主驾驶、机器人导航、AR/VR等前沿应用中，Simultaneous Localization and Mapping (SLAM) 是核心技术之一。

新智元

2025/03/27

600

纯RGB输入，解决户外场景SLAM！误差降低至9.8%，港科广开源 | ICRA 2025

大型多视角高斯模型LGM：5秒产出高质量3D物体，可试玩

渲染论文模型数据网络

为满足元宇宙中对 3D 创意工具不断增长的需求，三维内容生成（3D AIGC）最近受到相当多的关注。并且，3D 内容创作在质量和速度方面都取得了显著进展。

机器之心

2024/02/26

2670

AI研究也能借鉴印象派？这些栩栩如生的人竟然是3D模型

渲染测试基础模型数据

在 19 世纪，印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行，其特点是以「短小的、断断续续的笔触，几乎不传达形式」为特征，就是后来的印象派。简单来说印象派笔触未经修饰而显见，不追求形式的精准，模糊的也合理，其将光与色的科学观念引入到绘画之中，革新了传统固有色观念。

机器之心

2024/01/04

2190