前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >让自动驾驶‘看’得更准!高斯泼溅技术如何解决深度估计难题?

让自动驾驶‘看’得更准!高斯泼溅技术如何解决深度估计难题?

作者头像
一点人工一点智能
发布于 2025-06-15 03:18:57
发布于 2025-06-15 03:18:57
1290
举报

编辑:陈萍萍的公主@一点人工一点智能

入群邀请:10个专业方向交流群

一点人工一点智能

小工具集散地,知识随笔的分享小站

732篇原创内容

公众号

图片
图片

论文链接:https://arxiv.org/pdf/2504.01957

项目链接:https://hcis-lab.github.io/GaussianLSS/

图片
图片

简介

GaussianLSS是一种针对鸟瞰视图(BEV)感知的新型不确定性感知框架,它在现有方法的基础上引入了深度不确定性建模技术。论文首先概述了BEV感知的重要性及其在自动驾驶领域中的应用前景。BEV感知不仅为3D目标检测和BEV分割提供了统一的空间表示,而且对于理解驾驶环境至关重要。然而,当前的方法在实际应用中面临挑战,如缺乏对不确定性的建模以及高昂的计算成本。

为了克服这些问题,GaussianLSS重新审视了基于非投影的方法,特别是Lift-Splat-Shoot (LSS) 范式,并通过增加深度不确定性建模来增强其性能。该方法通过学习软深度均值并计算深度分布的方差来表示空间分散性,这种处理方式隐含地捕捉到了物体的边界和范围。随后,将深度分布转换为三维高斯分布,并通过栅格化构建不确定性感知的BEV特征。实验结果显示,在nuScenes数据集上,GaussianLSS相较于其他基于非投影的方法达到了最先进的性能。

图片
图片

引言部分进一步阐述了BEV感知作为自动驾驶中一项关键技术的重要性。它不仅为多传感器输入提供了一个统一的空间表示,而且是诸如3D目标检测、BEV分割等任务的基础。此外,BEV感知在下游应用中也扮演着关键角色,例如运动预测和规划,这些都依赖于准确的空间理解以确保安全性和决策制定的有效性。尽管现有的两种主要范式——2D非投影方法和3D投影方法都在推动这一领域的进步,但它们往往在准确性、计算成本和可扩展性之间做出妥协,限制了它们在现实世界场景中的应用潜力。GaussianLSS正是为了解决这些问题而提出的,旨在平衡精度与效率,满足实时自动驾驶应用的需求。

图片
图片

相关工作

在讨论相关工作时,论文首先区分了两种主流的BEV感知方法:2D非投影方法和3D投影方法。3D投影方法通过将预定义的3D体素点映射到图像平面来采样特征,从而绕过了直接深度估计的复杂性。这种方法的优点在于它可以将特征放置在可能的3D位置上,避免了直接进行深度预测的难题。

图片
图片

然而,这种方法由于依赖于3D网格导致计算成本较高,限制了其在实时应用场景中的实用性。相比之下,2D非投影方法则试图通过从2D图像到3D空间的映射来估计深度,而不明确预测深度。这些方法通常采用变换器架构或MLP来学习空间关系和深度线索,但在面对深度模糊性时遇到了挑战,因为这种映射仅是隐式的。此外,随着BEV网格和图像分辨率的增加,这类方法的计算复杂度也会显著上升,降低了它们在高分辨率应用中的效率和可扩展性。

最后,显式2D非投影方法如Lift-Splat-Shoot(LSS)提出了一种高效的管道来将2D特征提升到3D空间,成为3D感知任务设计的基础。但是,这种方法高度依赖于精确的深度估计,容易受到深度预测误差的影响,进而影响到BEV表示的准确性。因此,GaussianLSS通过引入一种新的深度不确定性建模技术,旨在解决上述问题,提高BEV感知的鲁棒性和可靠性。

图片
图片

GaussianLSS 方法详述

GaussianLSS的核心在于如何在真实世界的复杂场景中处理深度模糊性,并将深度不确定性建模融入到BEV表示流程中。具体来说,GaussianLSS首先对每个像素的深度分布进行预测,从而估计相应的深度不确定性。利用相机的投影矩阵,定义一个相机截锥空间,将这个深度不确定性转化为三维分布,并表示为具有均值和协方差矩阵的高斯分布。为了实现高效的BEV特征渲染,研究者们引入了透明度参数到三维高斯表示中,使得可以使用高斯栅格化技术进行快速且准确的BEV特征聚合。此外,考虑到相邻像素之间的深度均值不一致可能导致BEV特征扭曲的问题,采用了多尺度BEV渲染方法。

3.1 深度不确定性建模

在深度不确定性建模方面,GaussianLSS借鉴了先前的工作Lift-Splat-Shoot(LSS),但对其进行了改进。传统LSS方法首先将深度范围离散化成若干个区间,然后为每个像素坐标关联这些离散化的深度值,形成一个相机截锥空间。然而,这种离散化的处理方式会导致BEV投射稀疏,造成空间覆盖不完整。同时,由于softmax操作可能会对相近深度区间的概率产生极大差异,这会引发BEV特征的不一致性。

图片
图片

GaussianLSS通过引入连续的深度表示和显式的深度不确定性建模解决了这些问题。它通过计算每个像素的深度均值μ和方差σ2来捕捉深度分布的不确定性,并使用误差容许系数k定义一个软深度估计范围[μ−kσ,μ+kσ]。这样做的好处是可以更灵活可靠地进行深度投影,同时捕捉分布围绕均值的扩散情况,从而增强了BEV特征聚合的稳健性。

3.2 3D不确定性转换

接下来的3D不确定性转换步骤则是将得到的软深度估计转换为三维表示。对于给定的一个点p=(u,v,d),其中u和v代表像素坐标,d是深度,通过相机内参I和外参E将其反向投影为三维坐标。接着,计算该点的三维均值μ3d和协方差矩阵

图片
图片

,公式如下:

图片
图片

这里的

图片
图片

是每个深度区间对应的概率,而

图片
图片

是对应于深度di的三维点。由此,软深度估计被转换为一个三维高斯分布,其均值μ3d代表了三维空间中的分布中心,协方差矩阵

图片
图片

描述了分布的扩散程度。同样地,使用误差容许系数k定义一个围绕μ3d的三维不确定性范围,形成了一个以μ3d为中心的椭球体,用以捕捉基于深度估计扩散的三维位置不确定性。

3.3 BEV 特征渲染

在完成3D不确定性转换后,下一步是高效地将深度不确定性与预测特征整合进BEV表示中。这里采用了高斯栅格化技术,这是一种用于模拟三维场景的技术,通过定义三维均值μ∈R3、三维协方差矩阵

图片
图片

和透明度

图片
图片

来描述三维高斯分布。三维高斯分布G(x)表达式如下:

图片
图片
图片
图片

这些高斯分布随后通过alpha混合法投影并渲染到二维平面上。对于来自n个多视角相机的每张输入图像,提取多摄像头特征并通过简单的CNN层获得栅格化特征

图片
图片

、深度分布

图片
图片

和透明度

图片
图片

。然后根据前一步骤生成每个像素的三维表示

图片
图片

,每个xi包括三维空间坐标和协方差矩阵。通过将这些三维表示与特征图F及透明度α结合,得到一组高斯分布

图片
图片

之后,将n组高斯分布组合并投影到BEV平面上

图片
图片

。最终,通过替换ci为Fi在原始alpha混合公式中,得到BEV特征FBEV(x),并在不同分辨率下进行多尺度BEV特征渲染,以捕获层次化的空间表示。这种多层次特征渲染方法能够有效处理相邻像素间深度估计不一致的问题,并最终通过分割头产生最终预测结果。

图片
图片
图片
图片

实验结果与分析

为了验证GaussianLSS的有效性,研究者们在nuScenes数据集上进行了广泛的实验。nuScenes是一个大规模的自动驾驶数据集,提供了多个传感器同步的数据,包含总共1000个场景,分为750个训练集、150个验证集和150个测试集。每个场景持续20秒,涵盖了不同的天气条件和一天中的不同时段,每个场景包括六台摄像机提供的全景视图。

实验中,研究者们选择了至少40%可见度的对象进行评估,以确保比较的公平性。BEV表示在一个大小为200×200的网格上定义,对应于相对于自车前后方向[X轴]和左右方向[Y轴]各[-50m, 50m]的区域,每个网格单元代表0.5m×0.5m的面积。

图片
图片

GaussianLSS使用了分段损失函数、中心度损失和偏移损失进行训练,具体包括focal loss、L1损失和L2损失,权重分别为λ1=1、λ2=2和λ3=0.1。优化算法选择了AdamW,学习率为3×10-4,权重衰减为1×10-7,并采用余弦退火学习率调度器。总的批处理大小设置为8,分布在2块NVIDIA RTX 4090 GPU上,训练了50个周期。输入图像被调整为224×480和448×800的分辨率。

图片
图片
图片
图片

对于不确定性转换,使用了1/8比例的特征作为输入。数据增强应用于输入图像和BEV标签,遵循PointBEV的方法。实验表明,即使采用多尺度渲染,GaussianLSS在物体形状预测上的表现略逊于投影方法,但对于远距离对象的捕捉能力更强。此外,还展示了在行人分类分割和推断速度及内存消耗方面的比较,证明了GaussianLSS在效率上的优势。

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

结论与未来工作

总结来看,GaussianLSS通过引入深度不确定性建模,成功解决了BEV感知中的深度模糊性问题,提高了长距离物体的表征准确性。通过对误差容许系数k的敏感性分析,研究发现适当的k值可以在保持高置信度的同时,有效地涵盖物体的实际范围,避免过度模糊带来的精度下降。同时,通过对比直接预测固定空间范围的方法,强调了不确定性建模在BEV特征提取过程中的重要性。

未来工作中,可以探索更多关于如何优化深度不确定性建模的具体策略,以及如何进一步提高模型在复杂城市环境下的适应性和鲁棒性。此外,还可以考虑将GaussianLSS应用于更多的自动驾驶相关任务中,如地图分割和3D目标检测,以全面展示其潜在的应用价值。通过不断优化和拓展,GaussianLSS有望成为自动驾驶领域中不可或缺的关键技术之一。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档