文章/答案/技术大牛

发布

社区首页 >专栏 >NeRFs和3D高斯溅射技术如何重塑SLAM：综述

NeRFs和3D高斯溅射技术如何重塑SLAM：综述

点云PCL博主

发布于 2024-06-21 05:02:02

1.7K0

文章被收录于专栏：点云PCL点云PCL

文章：How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey

作者：Fabio Tosi,Youmin Zhang,Ziren Gong,Erik Sandstrom ,Matteo Poggi,Stefano Mattoccia,Martin R. Oswald

编辑：点云PCL

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。文章未申请原创，侵权或转载联系微信cloudpoint9527。

摘要

在过去的二十年中，同时定位与地图构建（SLAM）领域的研究经历了显著的演变，凸显了其在实现未知环境自主探索方面的关键作用。这一演变涵盖了从手工方法，通过深度学习时代，再到最近聚焦于神经辐射场（NeRFs）和3D高斯点（3DGS）表示的最新发展。鉴于这一领域日益增长的研究和缺乏综合性的综述，本文旨在通过最新辐射场技术的发展视角，提供SLAM进展的首个全面概述。本文阐述了SLAM的背景、进化路径、固有优势和局限性，并作为一份基础性参考，突出了该领域的动态进展和具体挑战。

图1：SLAM演变时间轴。此时间轴首先展示了从手工方法向深度学习技术的过渡，并列出了这两个时代的关键综述。2021年，一个关键的转变集中在基于辐射场的SLAM系统，以iMap [1] 为标志。图中右侧的圆圈代表每年的关键论文，圆圈的大小表示发表量。2024年的外圈预示着一个预期的激增，突显了对NeRF和3DGS启发的SLAM日益增长的兴趣。

主要贡献

1. 首次对SLAM的发展进行了广泛的综述，特别关注了受NeRF和3DGS启发的方法。

2. 历史背景和演变：提供了从手工制作方法到当前最先进方法的详细时间表。

3. 深入分析：对73个当代SLAM系统进行了深入调查，分类并分析其方法论。

4. 未来方向：突出当前方法的局限性并提出未来研究方向以克服这些挑战。

内容概述

SLAM技术的演变

SLAM技术的早期发展主要依赖于人工设计的算法，利用声纳、LiDAR等传感器进行环境感知和地图构建。这些方法虽然在实时性和可扩展性方面表现出色，但在动态环境和纹理较差的场景中往往表现不佳。随着深度学习的兴起，SLAM技术迎来了新的机遇。深度学习通过其强大的特征提取能力，提高了定位和地图构建的精度。尽管如此，这些方法依赖于大量的训练数据，并且在处理未见过的场景时仍面临挑战。神经辐射场（NeRFs）和3D高斯点技术（3DGS）代表了SLAM研究的最新前沿。这些方法通过连续的表面建模和减少的内存需求，实现了更高效的环境感知和地图构建。NeRFs和3DGS不仅能够处理噪声和遮挡，还能生成高分辨率的3D网格，显著提升了SLAM系统的性能。

图3：NeRF和3DGS在概念上有所不同。（左）NeRF沿着射线查询多层感知器（MLP），而（右）3DGS则为给定的射线混合高斯分布。

NeRF和3DGS在SLAM中的应用

NeRFs是一种基于神经网络的3D表示方法，通过从多个视角学习场景的辐射场，能够生成高质量的3D重建。NeRFs在处理复杂几何形状和高细节场景方面表现出色，为SLAM系统提供了更精确的环境感知能力。3DGS通过在3D空间中使用高斯分布表示点云，实现了更高效的地图构建和更新。3DGS不仅减少了内存需求，还改进了噪声处理和遮挡处理，使得SLAM系统在动态和复杂环境中表现更加稳定。

数据集

本节总结了最近SLAM方法中常用的数据集，涵盖了传感器、真值精度及其他关键因素等多个属性，适用于室内和室外环境。图4展示了来自不同数据集的定性示例，这些数据集将在后续部分进行介绍。

图4：主要SLAM数据集的定性比较。RGB-D图像来自：(a) ETH3D-SLAM，(b) ScanNet ，(c) TUM RGB-D，和(d) Replica。

同时定位与地图构建（SLAM）

这里介绍利用最新的辐射场表示进展的SLAM系统。按照基于方法的分类法组织，这些论文根据其方法进行分类，为读者提供清晰有序的呈现。该部分从基本分类开始，将论文分为RGB-D、RGB和LiDAR方法论，为特定子类别的发展奠定基础。每个类别列出了按照发布日期在会议/期刊上正式发表的论文，然后按照初稿提交日期在arXiv上发布的论文进行排列。为了全面理解，表1提供了受调查方法的详细概述。将不同的方法分为主要的RGB-D、RGB和基于LiDAR的框架。

图5：iMap的概述，这是神经隐式SLAM中的开创性方法。（左）图示了两个并发进程：跟踪，在锁定网络内优化当前帧的姿态；地图构建，在共同优化网络和所选关键帧的相机姿态。（右）利用可微渲染函数共同优化关键帧的场景网络参数和相机姿态。

图6：GS-SLAM的概述。该框架利用3D高斯场景表示和渲染的RGB-D图像进行逆相机跟踪。通过一种新颖的高斯扩展策略，GS-SLAM在GPU上实现了实时跟踪、地图构建和渲染，增强了场景重建能力。

图7：3D高斯可视化。（左）光栅化的高斯分布，（右）着色的高斯分布以突出显示底层几何形状。

图8：子地图可视化。神经子地图沿着扫描轨迹逐步分配，以它们专用的局部坐标框架编码精确的场景几何形状和颜色。

图9：语义可视化。来自Replica数据集的两个场景的3D语义网格（底部）及其使用RGB颜色进行分解的可视化（顶部）

图10：DEV-Indoors数据集的概览。(a) 显示正常、运动模糊和暗场景的RGB图像，对应的(b) 事件流和(c) 地面真实网格。

图11：PIN-SLAM概览。顶部：(a) LiDAR扫描，(b) 隐式SDF，(c) 从SDF重建的网格。底部：(d) 基于点的隐式神经(PIN)地图的可视化。

图12：在ScanNet 数据集上的SLAM方法比较 - 表面重建和定位准确性。真值轨迹为蓝色，估计轨迹为橙色。平均轨迹误差(ATE)通过色条进行可视化。

图13：在Replica数据集上的SLAM方法比较 - 地图构建。

表2对TUM RGB-D数据集的三个场景进行了摄像机跟踪结果的彻底分析，这些场景具有稀疏的深度传感器信息和RGB图像中的高运动模糊等挑战性条件。关键的基准包括像Kintinuous、BAD-SLAM和ORB-SLAM2这样的已建立方法，代表了传统的人工基线。

表3展示了在ScanNet数据集的六个场景中摄像机跟踪方法的评估。在RGB-D领域，表现突出的有帧到帧模型MoD-SLAM和GO-SLAM。两者都利用了精心设计的视觉里程计（如DROID-SLAM）和闭环策略，GO-SLAM还结合了全局捆绑调整（Global BA）。

表4评估了Replica数据集中的八个场景的摄像机跟踪，使用了比ScanNet和TUM RGB-D等具有挑战性的对手更高质量的图像。评估包括每个单独场景的ATE RMSE结果报告以及平均结果。

在表5中，重点突出在Replica数据集上3D重建和2D深度估计方面的表现。通过对表格的检查，明显看到从iMap到最近的方法（如NID-SLAM和ADFP）在3D重建和2D深度估计指标上的显著进步。

表6显示了Replica训练输入视图上的渲染质量，采用了Point-SLAM和NICE-SLAM的标准评估方法。

表7展示了在Replica数据集上最先进的RGB-D语义SLAM方法的对比分析，使用mIoU指标评估输入视图的语义分割性能，遵循SemGauss-SLAM的评估协议。比较的方法包括NIDS-SLAM、DNS SLAM、SNI-SLAM、NEDS-SLAM 和SemGauss-SLAM。表格突出了某些方法使用外部先验来提高其语义理解能力。在比较的方法中，SemGauss-SLAM在Replica数据集的所有八个场景中都获得了最高的mIoU分数，展示了其在语义分割方面的卓越性能。

表8评估了在KITTI数据集上LiDAR SLAM策略的表现，详细说明了顶部的里程计准确性和底部的SLAM性能指标。里程计部分报告了平均相对平移漂移误差（%），并突出了禁用闭环检测修正和位姿图优化模块的PIN-SLAM变体PIN-LO的表现。PIN-LO在使用不同地图表示（特征点、更稠密的体素降采样点、正态分布变换、表面元素和三角网格）的多个LiDAR里程计系统中表现优异，实现了0.5%的出色平移误差，与KISS-ICP和CT-ICP竞争，并由于改进的SDF训练和鲁棒的点到SDF配准，超越了神经隐式方法Nerf-LOAM。

表9报告了Newer College数据集上的跟踪准确性，以ATE RMSE [cm]衡量,观察到PIN-SLAM在全序列集上的平均RMSE为0.19 cm，比PIN-LO低5倍，这进一步确认了PIN-SLAM在全局轨迹跟踪方面的优越性。

表10汇总了New College数据集上3D重建质量的结果—特别是在Quad和Math Institute序列上,使用Accuracy和Completeness得分来评估Nerf-LOAM和PIN-SLAM的有效性，后者再次确认在该数据集上评估的所有LiDAR SLAM系统中表现最佳。特别是在Quad上，我们可以看到PIN-SLAM和Nerf-LOAM之间在Completeness方面的显著差距—约7 cm。

表11汇总了在Replica上运行的RGB-D和RGB系统的基准测试结果，按平均FPS升序排列。首先，我们考虑RGB-D框架：尽管SplaTAM在渲染图像方面效率很高，但在同时处理跟踪和建图时速度却慢得多。混合方法使用分层特征网格也有类似的情况，但需要的GPU内存却少得多—比SplaTAM少4到5倍。最后，使用更高级的表示可以实现更快的处理。这在RGB-only方法的研究中得到了证实，中间部分显示NeRF-SLAM比DIM-SLAM快6倍。最后，关于LiDAR SLAM系统，我们可以看到PIN-SLAM比Nerf-LOAM更高效，仅需要7 GB的GPU内存，同时运行速度接近7 FPS，而Nerf-LOAM需要接近12 GB和每帧4秒。

讨论

场景表示

场景表示的选择在当前SLAM解决方案中至关重要，对建图/跟踪精度、渲染质量和计算能力有显著影响。早期方法如iMAP使用基于网络的方法，通过基于坐标的多层感知器（MLP）隐式建模场景。尽管这些方法提供了紧凑、连续的场景建模，但由于更新局部区域和扩展大场景的挑战，它们难以实现实时重建，且往往生成过于平滑的场景重建。后续研究探索了基于网格的表示，例如多分辨率分层和稀疏八叉树网格，这些表示方法因快速的邻居查找而受欢迎，但需要预先指定网格分辨率，导致在空旷空间中内存使用效率低下，且捕捉细节的能力受分辨率限制。最近的进展如Point-SLAM和Loopy-SLAM倾向于混合神经点表示。与网格不同，点密度自然变化，无需预先指定。点集中在表面周围并对细节分配更高密度，相比于基于网络的方法更易于扩展和局部更新。目前，基于点的方法在3D重建中表现优异，在Replica数据集上的实验表明其能生成高度准确的3D表面。然而，与其他NeRF风格的方法类似，体积射线采样显著限制了其效率。有前景的技术包括基于3D高斯散射（3D Gaussian Splatting，3DGS）范式的显式表示。基于3DGS的显式表示在实现最先进的渲染精度的同时，也展示了更快的渲染速度。然而，这些方法存在诸多限制，包括对初始化的严重依赖以及在未观察区域中的原语增长控制缺失。此外，原始3DGS场景表示需要大量3D高斯原语以实现高保真重建，导致显著的内存消耗。尽管在过去三年中取得了显著进展，研究仍在积极克服现有场景表示的局限性，并寻找更有效的替代方案以提高SLAM的精度和实时性能。

历史信息的遗忘

现有方法往往在大场景或长视频序列中表现出遗忘之前学习的信息的趋势。对于基于网络的方法，这归因于它们依赖于单个神经网络或具有固定容量的全局模型，在优化过程中受到全局变化的影响。常见的方法是使用当前观测的稀疏射线采样训练网络，同时重放历史数据中的关键帧。然而，在大规模增量建图中，这种策略导致数据累积增加，需要复杂的重新采样程序以提高内存效率。遗忘问题也扩展到基于网格的方法。尽管努力解决这一问题，由于二次或立方空间复杂性，仍然面临扩展性挑战。虽然显式表示如3DGS风格解决方案提供了灾难性遗忘的实际解决方案，但由于内存需求增加和处理速度慢，尤其是在大场景中面临挑战。一些方法尝试通过稀疏帧采样来缓解这些限制，但这导致了3D空间中信息采样效率低下，导致模型更新速度较慢且不均匀，相比于整合稀疏射线采样的方法。最终，一些策略建议将环境划分为子图，并将局部SLAM任务分配给不同的代理。然而，这引入了处理多个分布式模型和制定有效策略以管理重叠区域并防止地图融合伪影的新挑战。

实时约束

许多技术在实现实时处理方面面临挑战，往往无法达到传感器的帧率。这一限制主要归因于所选择的地图数据结构或计算密集型基于射线渲染的优化，尤其在NeRF风格的SLAM方法中尤为明显。特别是使用分层网格的混合方法需要更少的GPU内存，但运行速度较慢。另一方面，先进的表示如哈希网格或稀疏体素允许更快的计算，但需要更高的内存需求。尽管如此，当前的3DGS风格方法在快速图像渲染方面具有优势，但仍难以有效处理同时进行的跟踪和建图处理，限制了其在实时应用中的有效使用。

全局优化

实现闭环和全局捆绑调整需要显著的计算资源，特别是在实时应用中存在性能瓶颈的风险。许多审查的帧到模型方法在闭环和全局捆绑调整方面面临挑战，因为更新整个3D模型的计算复杂性非常高。相比之下，帧到帧技术通过在后台线程中执行全局捆绑调整来促进全局校正，这显著提高了跟踪精度，如报告的实验所示，但相比实时速度较慢。对于这两种方法，由于潜在特征网格缺乏灵活性以适应闭环校正的位姿校正，计算成本大大增加。实际上，这需要在校正闭环并更新位姿后重新分配特征网格并重新训练整个地图。然而，随着处理的帧数增加，这一挑战变得更加明显，导致相机漂移误差的累积，最终导致不一致的3D重建或重建过程的快速崩溃。总体而言，将建图和跟踪过程分开，往往比耦合方法实现更好的跟踪性能。通过允许跟踪模块专注于相机位姿估计而不需要同时更新地图表示的复杂性，分离方法可以实现更准确和更稳健的跟踪。然而，这种改进的精度和稳健性以增加的计算开销为代价，因为独立的建图和跟踪阶段需要单独的处理流程和内存分配，这可能影响SLAM系统的整体效率。

NeRF与3DGS在SLAM中的比较

NeRF风格的SLAM主要依赖于MLP，适用于新视图合成、建图和跟踪，但面临诸如过度平滑、历史信息遗忘和由于依赖于逐像素射线行进而导致的计算效率低下等挑战。3DGS绕过了逐像素射线行进，通过基于原语的可微光栅化利用稀疏性。这为SLAM提供了显式体积表示、快速渲染、丰富的优化、直接的梯度流动、增加的地图容量和显式的空间范围控制。尽管NeRF在合成新视图方面表现出色，其缓慢的训练速度和难以适应SLAM是显著的缺点。3DGS以其高效的渲染、显式表示和丰富的优化能力，成为一个强大的替代方案。尽管如此，当前的3DGS风格SLAM方法也存在一些限制，包括大场景的可扩展性问题、缺乏直接的网格提取算法、无法准确编码精确的几何形状等。此外，3DGS风格SLAM系统的计算复杂性显著高于NeRF方法，这可能阻碍实时性能和实际部署，尤其是在资源受限的设备上。为了缓解这些问题，最近的研究如Compact-GSSLAM，集中于开发紧凑的3D高斯场景表示，以优化存储效率，同时保持高质量重建、快速训练收敛和实时渲染能力。

总结

总而言之，本综述开创性地探索了受辐射场表示最新进展影响的SLAM方法。从开创性的iMap到最新进展，回顾了仅在三年内涌现的大量文献。通过结构化的分类和分析，突出显示了关键的局限性和创新，提供了在跟踪、建图和渲染方面的比较结果和宝贵见解。同时它还识别了当前的开放挑战，为未来的研究提供了有趣的探索方向。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-10，如有侵权请联系 cloudcommunity@tencent.com 删除

内存