Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

作者头像
机器之心
发布于 2025-06-24 00:35:04
发布于 2025-06-24 00:35:04
1360
举报
文章被收录于专栏:机器之心机器之心

在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。

为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D+,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。

图片
图片
  • 🌐项目主页:https://research.nvidia.com/labs/toronto-ai/difix3d
  • 📄论文地址:https://arxiv.org/abs/2503.01774
  • 💻代码地址:https://github.com/nv-tlabs/Difix3D 
图片
图片

背景:3D 重建的 “致命短板”

近年来,NeRF(神经辐射场)和 3D Gaussian Splatting(3DGS)等技术在三维重建与新视角合成中取得突破。然而,在训练相机视角之外,这些方法往往会出现模糊、鬼影、几何错乱等伪影,尤其在视角跨度较大、数据稀疏、光照变化或相机标定不准确的情况下尤为严重。这些伪影极大限制了其在自动驾驶、机器人、AR/VR 等真实场景中的应用。

这主要是因为传统方法过度依赖局部一致性和 per-scene 优化流程,缺乏跨场景泛化能力,且无法有效填补观测稀疏区域的 “空洞”。

关键洞察:2D 扩散模型为何能 “修好” 3D?

Difix3D+ 提出了一个突破性的视角:将预训练 2D 扩散模型的视觉先验引入 3D 渲染流程,将其作为 “图像修复器”,精准去除神经渲染伪影。

这一设计基于一个关键观察:神经渲染伪影的分布,与扩散模型训练过程中的噪声图像分布惊人地相似。

图片
图片

为验证这一点,研究者将渲染图输入扩散模型进行单步 “去噪”,并系统性测试不同噪声强度(t)的效果 ——

  • 高噪声(t=600):虽然伪影被去除,但内容也严重变形
  • 低噪声(t=10):图像结构完整,但伪影几乎未去除
  • 中等噪声(t=200):在保留语义结构的同时,有效消除了渲染伪影

这一发现使得单步扩散模型成为 “修复” NeRF/3DGS 渲染图的理想选择,不仅效率高,而且具备泛化能力。

图片
图片

🔧Difix 具备以下核心优势:

1. 单步扩散:发现渲染伪影的分布在 t=200 处最接近扩散模型训练数据,DIFIX 可一次去除伪影并保留语义结构。

2. 无需大量训练:仅需在消费级 GPU 上训练几个小时,即可适配 NeRF/3DGS 的渲染伪影;

3. 支持多种 3D 表征:同一个模型可同时修复 NeRF(隐式)与 3DGS(显式)渲染;

4. 近实时推理:在 NVIDIA A100 上,仅需 76ms 即可完成图像修复,比传统多步扩散快 10 倍以上。

5. 可进可退:修复后的图像还能反向蒸馏回 3D 模型,提升整体建模精度和一致性。

解决方案:DIFIX3D+ = 扩散模型 + 蒸馏增强 + 实时修复

DIFIX3D+ 以一个经过少量微调的单步扩散模型(DIFIX)为核心模块,结合渐进式优化策略,构建出一个无需修改原始 3D 重建结构即可增强视觉质量的插件化系统。

图片
图片

核心三步流程:

Step 1:DIFIX 修复中间视角图像。从训练视角向目标视角进行插值采样,生成中间视角图,并用 DIFIX 去除伪影。

Step 2:蒸馏至 3D 表示。将修复后的图像 “反向蒸馏” 回 3D 表示中,逐步提升建模质量与区域覆盖度。

Step 3:推理时再修复。最终渲染出的图像,再次通过 DIFIX 后处理,消除残留细节错误,仅需 76ms,支持实时渲染。

实验结果一览:效果、指标全面领先

图片
图片

支持 NeRF、3DGS 多种 3D 表征。

图片
图片
图片
图片

FID 降幅超过 60%~70%,LPIPS 接近 SOTA 一半,大幅领先其他方法。

此外,在自动驾驶场景中(横向 6 米偏移或仰角 30°),DIFIX3D+ 仍能维持视角一致性与图像清晰度,极具工程落地价值。

图片
图片

结语:让 2D 模型 “反哺” 3D,打开新一代 3D 重建大门

DIFIX3D+ 展示了 2D 扩散模型在 3D 渲染修复中的巨大潜力。它无需改变原始建模流程,即可显著提升重建质量,为未来更加通用、智能、高效的 3D 场景生成与理解提供了坚实基础。

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
新视角合成(NVS)在计算机视觉和图形学领域有着数十年的历史,旨在从多个输入图像或视频中生成场景的视角。最近,三维高斯分裂(3DGS)[18]在生成具有高效渲染管线的照片级渲染方面表现出色。然而,在远离现有视角渲染高质量的新视角仍然具有很大的挑战性,这在稀疏视图设置中经常遇到,因为低采样区域的信息不足。如图1所示,当只有三个输入视图时,会出现明显的椭球形和空洞状的伪影。由于实际中存在这些低质量的渲染结果,因此有必要增强3DGS,以确保其在实际应用中的可行性。
AIGC 先锋科技
2024/11/21
3810
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D 场景的神经表达参数,使其在各个视角下渲染的 2D 图片符合大规模预训练的文生图模型分布。然而,尽管这一类方法在单个物体上取得了不错的效果,我们还是很难对具有复杂关节的细粒度人体进行精确建模。
机器之心
2023/12/12
7130
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024/04/12
1.7K0
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割 !
本研究旨在解决准确分割3D高斯分水(3D-GS) FROM 2D Mask 的挑战。传统方法通常依靠迭代梯度下降为每个高斯分配唯一的标签,导致长久的优化和次优解。
未来先知
2024/12/30
2710
FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割 !
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
高效三维重建的需求正迅速增长,这得益于其实时游戏[83]、自主导航[1]等领域的应用[57, 97]。NeRF[59]和3DGS[35]等技术开创了高质量、密集视点重建,并在真实场景生成中展现出令人印象深刻的性能。然而,这些方法通常需要大量专业拍摄的图像,限制了其可及性[84]。为克服这一限制,研究行人开始探索从Sparse视点进行三维重建[13, 84, 95, 99],将输入要求降低至仅需两张随意拍摄的图像。
未来先知
2025/05/27
540
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
CVPR2024 | HUGS:人体高斯溅射
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL,直接从视频生成3D化身来解决这些问题,这些模型具有高效光栅化和适应未见变形的能力。然而,参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身,通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色,超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而,它们也有不足,特别是在训练和渲染效率方面较低。
用户1324186
2024/05/31
6410
CVPR2024 | HUGS:人体高斯溅射
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
从2D图像中进行3D重建和建模近年来受到了极大的关注,这要归功于具有3D重建能力的真实感视图合成方法的最新进展。从技术角度来看,这是一个跨计算机视觉、计算机图形学和摄影测量学的交叉研究领域。
AIGC 先锋科技
2024/07/08
1K0
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
Gamba:仅需0.05秒让一张图片生成高质量3D模型!(新加坡国立大学&天工AI开源)
Github:https://github.com/SkyworkAI/Gamba
AI进修生
2024/12/02
8020
Gamba:仅需0.05秒让一张图片生成高质量3D模型!(新加坡国立大学&天工AI开源)
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
文章:How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey
点云PCL博主
2024/06/21
1.7K0
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速
今年 4 月,Meta 发布「分割一切(SAM)」AI 模型,这项成果不仅成为很多 CV 研究者心中的年度论文,更是在 ICCV 2023 上斩获最佳论文提名 。
机器之心
2023/12/12
6270
分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速
FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成
新视角合成是计算机视觉和图形学领域中一项长期存在并且富有挑战的任务。过去两年,NeRF及其衍生工作的提出将该任务提升到了新的高度。然而,基于NeRF的方法的训练和渲染需要大量的成本才能达到理想的效果,比如稠密的输入视角和耗时的训练与渲染。尽管后续的一些稀疏视角NeRF的工作以及InstantNGP的提出在一定程度上解决了部分缺陷,但NeRF方法始终没有做到实时和高质量的高分辨率渲染。
用户1324186
2024/04/12
1K0
FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。
机器之心
2025/02/14
1670
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
从单张图像创建具有灵活视角的3D场景,在直接获取3D数据成本高或不切实际的应用领域(如考古保护和自主导航)中具有变革性潜力。然而,这一任务本质上仍然存在困难:单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是,在推理到极端视角(例如,180°旋转)时,之前被遮挡或完全不存在的内容可能会出现,从而引入显著的不确定性。
AIGC 先锋科技
2025/04/18
1150
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2
是否还在担心大规模场景训练和压缩耗时太长、显存开销太大?是否还在苦恼重建出的建筑物和道路表面破碎不堪?是否还在困扰如何定量衡量大规模场景几何重建的精确程度?
机器之心
2025/02/06
1970
ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。
新智元
2025/03/27
830
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。
用户1324186
2024/05/31
1.5K0
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
一点人工一点智能
2024/04/18
3.2K0
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
开源 4D 生成框架 | 4DGen: 基于动态 3D 高斯的可控 4D 生成
本文分享4D生成方向新工作,由北京交通大学和得克萨斯大学奥斯汀分校共同完成的4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency,文章使用Gaussian Splatting实现了高质量的4D生成。
CV君
2024/01/02
7780
开源 4D 生成框架 | 4DGen: 基于动态 3D 高斯的可控 4D 生成
告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人赵健、清华大学智能产业研究院(AIR)助理教授赵昊等。
机器之心
2024/05/22
4390
告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
每日学术速递12.24
1.On Calibration in Multi-Distribution Learning
AiCharm
2024/12/24
1320
每日学术速递12.24
推荐阅读
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
3810
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
7130
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
1.7K0
FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割 !
2710
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
540
CVPR2024 | HUGS:人体高斯溅射
6410
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
1K0
Gamba:仅需0.05秒让一张图片生成高质量3D模型!(新加坡国立大学&天工AI开源)
8020
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
1.7K0
分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速
6270
FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成
1K0
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
1670
FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !
1150
ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2
1970
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
830
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
1.5K0
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
3.2K0
开源 4D 生成框架 | 4DGen: 基于动态 3D 高斯的可控 4D 生成
7780
告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
4390
每日学术速递12.24
1320
相关推荐
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档