Aitrainee | 公众号:AI进修生
🌟第一个具有 3DGS 的端到端可训练单视图重建模型、在 0.05秒内从单个图像输入重建 3D 对象。将 Gaussian Splatting 与 Mamba 结合,实现单视图 3D 重建。
Github:https://github.com/SkyworkAI/Gamba
Hi,这里是Aitrainee,欢迎阅读本期新文章。
把单张图片重建为3D模型的话,在许多工业领域应该有很多实际的作用,Gamba这种方法可以从单个的快照中生成AR或者VR的内容,还能通过单眼感知帮助开发自动驾驶车辆路径规划。
单视图3D重建神器Gamba,提速1000倍!让你一张图片生成高质量3D模型。
我们之前的一些单视图3d重建方法,比如评分蒸馏采样(Score Distillation Sampling,SDS)需要耗时的逐实例优化过程才能生成单个对象,并且会因预训练的2D扩散模型中的偏差而产生多面问题等伪影。此外,之前的方法主要采用神经辐射场(NeRF),其高维多层感知和低效的体积渲染极大地限制了在计算预算有限的情况下的实际应用。
▲与大型重建模型的定性比较。
昆仑万维颜水成团队提出了一种端到端单视图重建流水线,它结合了3D高斯散布和Mamba,实现了快速重建。Gamba方法通过一种迭代的重建策略来提高重建的速度和质量。
▲ 图(a):Gamba一种端到端、前馈单视图重建管道,它将 3D 高斯 Splatting 与 Mamba 结合起来以实现快速重建。(b):3DGS 迭代重建与 Gamba 顺序预测模式之间的关系。
图示展示了Gamba方法的工作原理和与现有方法的关系:
Gamba方法相对于现有方法的优势,通过快速、端到端的重建过程提高了效率,并且能够生成高质量的3D模型。
▲ 图2:Gamba整体架构。Gamba 将单视图图像及其相机姿态作为输入来预测给定主体的 3D 高斯泼溅。训练监督仅通过重建损失应用于渲染的多视图图像。
Gamba是一种旨在实现高效单视图3D重建的模型,解决了现有方法在单张图片重建3D资产时速度慢和内存消耗大的问题。该模型强调了两个主要创新点:
该模型在Objaverse上进行了训练,并在GSO数据集上对现有的优化方法和前馈3D重建方法进行了评估,是唯一使用3DGS进行端到端训练的单视图重建模型。
这张图展示了Gamba模型的整体架构和Gamba块的细节。
Gamba模型的设计类似于让多个“小脑袋”(即Gamba Blocks)逐步处理输入图像的不同信息,并最终生成高效的3D重建结果。通过引入Mamba-based GambaFormer网络和稳健的高斯约束,模型不仅提高了重建速度,还减少了内存消耗。
Gamba模型的这些创新使其在单视图3D重建任务中表现突出,不仅生成效果优异,还具有显著的速度优势,非常适合实际应用。
▲ 与基于 Zero-1-to-3 [27] 的单视图 3D 重建方法的比较,包括仅前馈方法 One-2-3-45 [26] 和基于优化的 DreamGaussian [48]。
这张图展示了不同单视图3D重建方法在重建各种物体时的效果对比:
整体来看,Gamba显著优于其他单视图3D重建方法,在保持合理几何形状和生成逼真纹理方面具有明显优势。
使用的是单个NVIDIA A100 GPU(80GB),Gamba方法在速度上显著优于基于优化的方法(如Zero-1-to-3),其推理时间仅为0.05秒,比其他快速前向传导模型也有显著优势,这归功于其高效的主干设计。
▲Mamba 与 Transformer 的内存消耗随标记长度变化的比较。
下面提供官方的文档介绍、相关资源、部署教程等,进一步支撑你的行动,以提升本文的帮助力。
这是 Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction 的官方实现。
🔥 从单个图像输入重建3D对象,只需50毫秒。
🔥 首个可端到端训练的单视图重建模型,采用3DGS技术。
https://github.com/SkyworkAI/Gamba/assets/44775545/21bdc4e7-e070-446a-8fb7-401c9ee69921
# 需要安装xformers!请参阅https://github.com/facebookresearch/xformers了解详细信息。
# 例如,我们使用torch 2.1.0 + cuda 11.8
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0--index-url https://download.pytorch.org/whl/cu118
pip install causal-conv1d==1.2.0 mamba-ssm
git clone--recursive git@github.com:SkyworkAI/Gamba.git
# 修改过的高斯点撒算法(+ 深度,alpha渲染)
pip install ./submodules/diff-gaussian-rasterization
# 辐射多边形掩码,仅在训练中使用
pip install ./submodules/rad-polygon-mask
# 用于网格提取
pip install git+https://github.com/NVlabs/nvdiffrast
# 其他依赖项
pip install -r requirements.txt
我们的预训练权重可以从 huggingface 下载。一个更大的模型即将推出!
例如,要下载用于推理的bf16模型:
mkdir checkpoint && cd checkpoint
wget https://huggingface.co/florinshen/Gamba/resolve/main/gamba_ep399.pth
cd ..
推理大约需要1.5GB的GPU内存,耗时50毫秒。
bash scripts/test.sh
更多选项,请查看选项。
我们将很快更新训练教程。
这项工作基于许多优秀的研究和开源项目
论文:https://arxiv.org/abs/2403.18795
网站:https://florinshen.github.io/gamba-project/
Github:https://github.com/SkyworkAI/Gamba
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有