前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)

重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)

作者头像
公众号-arXiv每日学术速递
发布2024-06-28 13:28:32
990
发布2024-06-28 13:28:32
举报

基于视觉的路侧3D目标检测在自动驾驶领域引起了越来越多的关注,因其在减少盲点和扩大感知范围方面具有不可忽略的优势。而先前的工作主要集中在准确估计2D到3D映射的深度或高度,忽略了体素化过程中的位置近似误差。受此启发,我们提出了一种新的体素化策略来减少这种误差,称为BEVSpread。具体而言,BEVSpread不是将包含在截头体点中的图像特征带到单个BEV网格,而是将每个截头体点作为源,并使用自适应权重将图像特征扩展到周围的BEV网格。为了实现更好的特征传递性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。在定制的CUDA并行加速的帮助下,BEVSpread实现了与原始体素化相当的推理时间。在两个大型路侧基准上进行的大量实验表明,作为一种插件,BEVSpread可以显著提高现有基于frustum的BEV方法。在车辆、行人和骑行人几类中,提升幅度为(1.12,5.26,3.01)AP。

开源链接:https://github.com/DaTongjie/BEVSpread

介绍

以视觉为中心的3D目标检测在自动驾驶感知中发挥着关键作用,有助于准确估计周围环境的状态,并以低成本为预测和规划提供可靠的观测结果。现有的大多数工作都集中在自车辆系统上,由于缺乏全局视角和远程感知能力的限制,该系统面临着安全挑战。近年来,路侧3D目标检测引起了越来越多的关注。由于路边摄像头安装在离地几米的电线杆上,它们在减少盲点、提高遮挡鲁棒性和扩展全局感知能力方面具有固有优势。因此,作为提高自动驾驶安全性的补充,提高道路侧感知性能是很有希望的。

最近,鸟瞰图(BEV)已成为处理3D目标检测任务的主流范式,其中基于frustum的方法是一个重要的分支,其流程如图1a所示。它首先通过估计深度或高度将图像特征映射到3D frustum,然后通过降低Z轴自由度将frustum汇集到BEV网格上。广泛的工作集中在提高深度估计或高度估计的精度,以提高2D到3D映射的性能。然而,很少考虑由体素化过程引起的近似误差。如图1a所示,预测点通常不位于BEV网格中心。为了提高计算效率,先前的工作将预测点中包含的图像特征近似累积到单个对应的BEV网格中心,导致位置近似误差,并且该误差是不可恢复的。增加BEV网格的密度可以减轻这种误差,但会显著增加计算工作量。特别是在路边场景中,由于感知范围大,计算资源有限,BEV网格只能设计得相对稀疏,以确保实时检测,这恰恰加剧了这种误差的影响。因此,我们提出了一个问题:我们如何在保持计算复杂性的同时减少这种误差?

在这项工作中,我们提出了一种新的体素化策略来减少这种位置近似误差,称为BEVSpread。BEVSpread不是将包含在截头体点中的图像特征添加到单个BEV网格,而是将每个截头体点将视为源,并使用自适应权重将图像特征扩展到周围的BEV网格。我们发现,分配给周围BEV网格的权重应该与距离和深度有关。首先,权重随着距离的衰减可以有效地保留更多的位置信息,这有利于后续的网络学习。其次,我们注意到,具有更深深度的相同大小的图像块表示较大3D尺度的目标,这导致远处的目标包含很少的图像特征。因此,为远处目标的周围BEV网格分配更大的权重是合理的。受此启发,设计了一个特定的权重函数来实现卓越的扩展性能,其中权重和距离遵循高斯分布。这种高斯分布的方差与控制衰减速度的深度信息呈正相关。特别是,BEVSpread是一个插件,可以直接部署在现有的基于截头体的BEV方法上。

为了验证BEVSpread的有效性,在两个具有挑战性的基于视觉的路边感知基准DAIR-V2X-I和Repo3D上进行了广泛的实验。在部署扩展体素化策略后,BEVHeight和BEVDepth的3D平均精度在三个主要类别中平均提高了3.1和4.0。

总结来说,本文的主要贡献如下:

  • 我们指出,当前的体素化方法存在位置近似误差,严重影响了路边场景中3D目标检测的性能,而这一问题在以前的工作中被忽略了。
  • 我们提出了一种新的扩展体素化方法,即BEVSpread,该方法在扩展过程中考虑了距离和深度效应,以减少位置近似误差,同时通过CUDA并行加速保持可比较的推理时间。
  • 大量实验表明,作为一种插件,BEVSpread在车辆、行人和骑自行车的类别中分别以(1.12、5.26、3.01)AP的大幅度显著提高了现有基于截头体的BEV方法的性能。

相关工作回顾

近年来,鸟瞰图(BEV)为多传感器提供了统一的特征空间,清晰地呈现了目标的位置和尺度,成为自动驾驶中3D目标检测的主流范式。在本节中,我们详细介绍了BEV感知、路边BEV感知和体素化策略。

BEV感知。根据传感器类型,BEV方法主要可分为三部分,包括基于视觉的方法、基于激光雷达的方法和基于融合的方法。基于视觉的BEV方法由于其低部署成本而成为一个具有重要意义的话题,它又分为基于Transformer和基于Frustum的方案。基于Transformer的方法引入了3D目标查询或BEV网格查询来回归3D边界框。基于截头体的方法首先通过估计深度或高度将图像特征映射到3D截头体,然后通过体素化生成BEV特征。这项工作侧重于基于截头体的方法中的体素化化过程,这一过程很少被探索,但至关重要。

路测BEV感知。路测BEV感知是一个新兴领域,但尚未得到充分的探索。BEVHeight首先关注路边感知,它预测高度分布以取代深度分布。CBR侧重于设备的鲁棒性,它在没有外部校准的情况下生成BEV特征,而精度有限。CoBEV融合了以几何为中心的深度和以语义为中心的高度线索,以进一步提高性能。MonoGAE考虑地平面的先验知识。与这些方法不同的是,本文提出了一种插件来提高现有基于截头体的BEV方法的性能。

体素化策略。LSS是基于frustum的BEV方法的开创性工作,其中首次提出了体素化。大量的工作遵循这一设置。SA-BEV提出了一种新的体素化策略,即SA-BEVPool,用于过滤背景信息。而未过滤出的截头体点采用与LSS相同的体素化化方法。在这项工作中,我们重点消除LSS体素化化过程中的位置近似误差。

方法详解

网络整体框架如下图所示:

Top-k Nearest BEV Grids:定义来表示BEV网格中任意位置的集合,来代表BEV网格中心的集合。

Spread Voxel Pooling:在扩展体素池化阶段,我们首先通过减小Z轴自由度来计算3D几何体中每个点在BEV空间中的对应位置p。我们不是将包含的上下文特征累积到相应的单个BEV网格中心,而是将具有特定权重的fC传播到其邻居Ω,这些邻居Ω是p周围的n个最近的BEV网格。具体而言,扩展体素池化的过程可以公式化为:

权重函数。我们发现,在传播过程中,权重应该与距离和深度有关。(a) 权重随距离衰减可以保留更多的位置信息,有利于通过后续的网络学习恢复p∈PBEV的准确位置,从而消除原始体素池化过程中的位置近似误差。此外,我们还设计了一个直观的实验来证明这一点。(b) 如图3所示,具有较深深度的相同大小的图像块表示较大3D尺度的目标,导致较远的目标包含很少的图像特征。因此,为远处目标的周围BEV网格分配更大的权重是合理的,这表明权重随着距离的推移衰减得更慢,如图2所示。

为此,我们设计了一个特定的权重函数,巧妙地使用高斯函数来整合距离和深度信息。函数定义为:

总之,扩展体素池策略的伪代码如算法1所示。

实验

本文在DAIR-V2X-I和Rope3D上展开实验。

Comparison with state-of-the-art

为了进行全面评估,我们将所提出的BEVSpread与DAIR-V2X-I和Rope3D上最先进的BEV探测器进行了比较。由于所提出的扩展体素池策略是一个插件,我们将其部署到BEVHeight,称为BEVSpread。结果描述如下。

DAIR-V2X-I的结果。表1说明了DAIR-V2X-I的性能比较。我们将我们的BEVSpread与最先进的基于视觉的方法进行了比较,包括ImVoxelNet、BEVFormer、BEVDepth和BEVHeight,以及传统的基于激光雷达的方法,包括PointPillars、SECOND和MVXNet。结果表明,BEVSpread在车辆、行人和骑自行车的类别中分别以(1.12、5.26和3.01)AP的显著优势优于最先进的方法。我们注意到,以前的方法仅在0-100m中进行训练,而DAIR-V2X-I包含0-200m的标签。为此,我们涵盖了更长范围的3D目标检测,将目标定位在0-200m内,在表1中表示为DAIR-V2X-I*。

Rope3D上的结果。我们将BEVSpread与最先进的以视觉为中心的方法进行了比较,包括在同源设置中的Rope3D验证集上的BEVDepth和BEVHeight。如表1所示,BEVSpread全面优于所有其他方法,在车辆、行人和骑自行车的情况下分别显著提高了(2.59、3.44和2.14)AP。

可视化结果。如图4所示,我们在图像和BEV视图中显示了BEVHeight和BEVSpread的可视化结果。在上半部分可以观察到,BEVSpread在多个场景中检测到BEVHeight未命中的目标。主要原因显示在下半部分。图像特征表明,BEVSpread将更多的注意力集中在前景区域。并且BEVSpread生成的BEV特征比BEVHeight生成的特征更平滑。BEVHeight错过了行人,因为没有相应的图像特征被投影到正确的BEV网格上。而BEV将图像特征扩展到周围的BEV网格,并准确地覆盖正确的BEV栅格,从而成功地检测到目标。

Proof Experiment for Position Recovery

我们设计了一个直观的实验来证明所提出的扩展体素池策略可以在BEV空间中实现精确的位置恢复。最初,随机生成表示图像特征的10个C维随机矢量。然后,我们随机生成3D点,并为这10个特征进行分配。基于原始体素池和扩展体素池,将3D点投影到16×16边界元网格上,以获得边界元特征。U-Net编码器网络用于回归第一图像特征在BEV空间中的准确位置,并使用MSE损失。请注意,训练过程包含5000次迭代,并且每次迭代的批量大小设置为128。每次迭代的输入都是随机的。实验过程如图1所示。如图5所示,当邻居数量≥3时,我们的扩展体素池恢复了具有0.003 MSE损失的随机点位置,而原始体素池获得0.095 MSE损失。

消融实验

作为插件的性能。所提出的扩展体素池策略作为一种插件,可以显著提高现有基于截头体的BEV方法的性能。如表3所示,部署到BEVDepth[16]后,性能在三个类别中显著提高了(4.17、8.93和8.2)AP。在部署到BEVHeight[44]后,性能在三个类别中提高了(1.55、5.58和7.56)AP。值得注意的是,儿科医生和自行车手的识别能力有了很大提高。

邻居选择分析。图6显示了三个类别的mAP如何随着邻居数量k而变化。对于每个超参数选择,我们重复3次,浅蓝色区域表示误差范围。可以观察到,k≥2的性能明显优于k B11(基线)。随着k的增加,性能逐渐提高并变得稳定。

权重函数分析。我们在表4中验证了权重函数的深度和可学习参数α的有效性。在三个主要类别中的改进证明了深度和可学习参数α的应用允许更好的扩展性能。两者兼而有之时,中等难度的三个类别的综合表现分别为65.80%、31.00%和56.34%。

对不同骨干的分析。我们使用不同的主链进一步比较了BEVSpread和BEVHeight。ResuNet-50/101的结果列于表1和表3,ConvNeXt-B的实验列于表5。结果表明,更强的主干会带来更高的性能,我们的方法可以进一步提高它。

Limitations and Analysis

所提出的扩展体素池带来了一定的计算量,导致延迟增加。虽然我们的方法可以灵活地通过调整扩展范围来平衡精度和速度,扩展范围表示为相邻大小k。如表6所示,当k=2时,BEVSpread仍然在没有延迟增加的情况下实现了Avg AP的显著改进,这得益于我们的CUDA优化。此外,这些扩散点的坐标在本版本中是在线计算的。在实际部署阶段,BEVSpread可以使用类似于BEVPoolv2的预处理查找表来增强加速。

结论

在本文中,我们指出了当前体素池化方法中的一个近似误差。我们提出了一种称为BEVSpread的新的体素池策略来减少这种误差。BEVSpread将每个截头体点视为一个源,并使用自适应权重将图像特征扩展到周围的BEV网格。此外,还设计了一个特定的权重函数,用于根据距离和深度动态控制衰减速度。在DAIR-V2X-I和Rope3D中的实验表明,BEVSpread显著提高了现有基于截头体的BEV方法的性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 arXiv每日学术速递 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 相关工作回顾
  • 方法详解
  • 实验
    • Comparison with state-of-the-art
      • Proof Experiment for Position Recovery
        • 消融实验
        • Limitations and Analysis
        • 结论
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档