前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解决边界框框定不准确问题,提高3D目标检测的准确性!

解决边界框框定不准确问题,提高3D目标检测的准确性!

作者头像
未来先知
发布2024-09-24 18:29:11
1180
发布2024-09-24 18:29:11
举报
文章被收录于专栏:未来先知

回归任务中的边界框框定不准确严重限制了一阶段3D目标检测的性能。 作者的研究揭示了主要原因在于两个方面: (1)中心-偏移预测的局限性严重损害了边界框定位,因为许多最高响应位置明显偏离物体中心。 (2)在回归任务中被忽略的低质量样本对边界框预测产生了显著影响,因为它产生了不可靠的质量(IoU)校正。为了解决这些问题,作者提出了一种名为解耦与交互回归建模(DIRM)的框架,用于一阶段检测。 具体而言,解耦属性回归(DAR)实现了一个用于通过适应性多样本分配策略实现中心属性 long regression range 建模,同时通过深度解耦框定属性。 另一方面,为了增强低质量结果的 IoU 预测可靠性,交互式质量预测(IQP)将分类任务与质量预测集成在一起,以实现 joint optimization。 在 Waymo 和 ONCE 数据集上的广泛实验表明,DIRM 显著提高了几种最先进的方法的性能,且额外计算延迟最小。值得注意的是,DIRM 在 Waymo 和 ONCE 数据集上都实现了最先进的检测性能。

1 Introduction

激光雷达在自动驾驶领域的广泛应用,使得基于激光雷达的3D目标检测越来越受到关注,并得到了大量的开发。当前高性能的3D检测器通常采用两阶段的网络结构。与单阶段竞争对手相比,两阶段方法涉及额外的耗时操作,如集束抽象[14]和感兴趣区域(RoI)池化[16],并具有更高的内存负担,限制了其在现场自动驾驶场景中的应用。

图1:DIRM的检测性能和推理时间与最先进方法的比较。所有方法均在20%的Waymo训练集上进行训练,推理延迟在单个NVIDIA A100 GPU上进行评估。结果表明,DIRM在增加少量推理延迟的同时,明显优于 Baseline 方法。此外,DIRM在单阶段和 Transformer 基础方法之前超过了最先进的两阶段方法。

现有单阶段方法试图减小与两阶段方法之间的性能差距。例如,CIA-SSD试图通过引入交点与 Union (IoU) 分支来解决置信度和局部定位质量之间的歧义。PillarNet采用更深层的编码器网络和解耦的DIoU损失,进一步优化检测能力。尽管实现了不错的准确性增益,但这些方法仍无法达到最先进的(SOTA)两阶段方法。最近,一些方法引入了自注意力[20]和交叉注意力到当前的密集3D目标检测。尽管基于 Transformer 的方法能够实现令人满意的性能,但它们仍然存在昂贵的计算成本。因此,设计一个实时和高性能的单阶段检测器仍然是一个具有挑战性的任务。

为了充分利用单阶段方法性能潜力,作者对当前占有主导地位的中心点(CenterPoint)进行了深入分析和实验,发现回归任务的不准确建模是导致性能不佳的主要原因。

中心属性回归不准确。中心属性回归作为边界框回归的核心任务,关注像素中心与 GT (GT)中心之间的偏移。如图2(a)所示,中心属性的回归建模在狭义的范围内(±0.5像素)。由于回归间隔建模不充分,当最高响应偏离远非物体中心时,预测偏移量有限,这将对边界框定位产生显著影响。根据作者的统计,此现象约占70%,中心属性的平均相对百分比误差(MRPE)可达130%。

在另一个关键的回归任务中,边界框(IoU)的质量被预测以校正置信度。与其他回归任务相似,IoU预测主要关注GT的中心样本,但对周围低质量样本的建模不可靠。不可靠的预测IoUs可能会破坏校正过程,如图2(b)所示。进一步的统计结果显示,对于低质量边界框(),预测的IoU值的均方误差(MSE)是高质量边界框(0.5)的22倍。

为了解决这些问题,作者提出了一种解耦和交互式回归建模(DIRM),用于精确的边界框回归和质量(IoU)预测(图3)。具体而言,对于中心属性,作者提出了解耦属性回归(DAR)策略,以进行中心和大范围样本的长程回归建模。与传统的多正样本策略不同,DAR深入地将中心属性与其他边界框属性解耦,并实现了并列样本选择策略如图4(a)所示。因此,DAR可以在某些属性上进行有针对性的建模,有效地避免由不平衡样本引起的性能偏差。对于样本选择,DAR首先根据点云分布(位置和方向)选择初始样本。然后,根据这些样本的性能进行动态调整和优化,以在不同的训练阶段收集可靠的回归线索。另一方面,为了为低质量预测提供可靠的预测IoUs,作者提出了交互式质量预测(IQP)策略,巧妙地将无类别物体分类引入IoU预测任务。由于密集的二进制监督信号,IQP可以全面建模物体的前景和背景样本,克服了过去无法监督背景样本的方法的缺点。基于这一点,IQP进一步细粒度优化物体前景,以稀疏质量监督信号。通过这种交互建模,IQP可以满足不同质量结果的IoU预测要求。

所提出的DAR和IQP可以轻松集成到任何中心基方法中,不增加额外的复杂性。在对Waymo[24]和ONCE[19]数据集进行的大量实验表明,DIRM可以显著提高现有的单阶段SOTA方法的性能,提高2.0至5.0个mAPH,并实现新的SOTA性能。

本工作的主要贡献可以概括如下:

作者提出了DIRM,它通过使用解耦和交互式回归建模策略,实现了一个阶段检测器,能够在实时和高度性能下实现准确边界框回归和IoU预测。

DAR有效地通过深入解耦边界框属性并实现独立的自适应样本分配策略,来建模中心属性的长回归范围。为了确保低质量结果的可靠IoU预测,IQP交互式地建模了类无关的目标分类任务和质量预测任务。

在作者分别在Waymo和ONCE数据集上进行的广泛实验中,展示了DIRM的SOTA检测性能和卓越的泛化能力。此外,定量实验验证了DIRM在处理不等质回归任务建模方面的有效性。

2 Related Works

由于更简单的网络结构,一阶段3D目标检测在学术界和工业界中受到了越来越多的关注。然而,一阶段方法在竞争性二阶段方法中始终表现出劣质性能。为了提高一阶段 Pipeline 的性能,AFDet系列[13]引入了一个质量预测分支来纠正置信度,PillarNet[2]增加 Backbone 网络的深度并引入DIoU损失。此外,PillarNext[1]通过重新设计 Backbone 网络、 Neck 和检测Head来优化一阶段方法的性能。

最近的研究[10, 11](Zhu et al., 2023; Wang et al., 2023)将 transformers[27] 集成到密集3D目标检测任务中,实现了先进性能,但导致了高的计算成本。

边界框回归: 由于在大规模数据集[27,19]上CenterPoint的优秀性能,各种 Anchor-Free 方法将它作为新的基准。作为基于中心的检测方法,CenterPoint根据中心样本构建了一个边界框属性回归模型。如第1节分析所示,基于中心样本的回归模型在局部定位上存在困难,限制了一阶段基于中心的检测性能。本工作对一阶段基于中心的方法中的不准确局部定位进行了深入分析。提出的DAR模型模拟中心属性的长程回归,确保了对于偏移中心的高质量预测结果进行准确的局部化。

质量预测: 几种基于中心的 Anchor-Free 方法通过引入一个额外的质量(IoU)预测分支来纠正置信度,目的是保留在NMS过程中与定位质量高度相关的预测。这些方法仅关注GT框的中心样本,缺乏对周围低质量样本的可靠建模。不可靠的质量预测结果可能会轻易地干扰置信度校正过程,并直接影响检测器的定位性能。 proposed IQP旨在通过多个损失函数的联合优化,集成擅长建模背景信息的分类任务与擅长回归任务的回归任务,以提高不同质量样本的IoU预测准确性。

3 Dirm

Decoupled Attribute Regression (DAR)

局部定位精度是影响边界框回归质量的关键因素。受制于统一的中心点样本分配,中心点的回归目标 模型在一个有限像素区间内()内进行建模。正如之前讨论的,中心属性的不完全建模会导致显著的局部定位偏差。统计结果表明,中心属性相对误差在所有类别中均为130%,甚至对车辆类别来说更高达160%。

为了建模更长的回归范围,一个自然的想法是利用中心点周围的多个样本来预测物体的中心,这种策略被称为多正样本分配。在这种情况下,回归目标可以在一个更大的像素区间内()内进行建模。然而,简单的实验表明,仅选择中心点周围的样本作为正样本并不能提高整体性能。这是因为将更多的回归任务添加到某些对多样本不敏感的属性上会导致不平衡的回归损失。为了克服这个限制,作者提出了一种解耦属性回归(DAR)策略,其包括以下几个关键设计:

深解耦属性.尽管中心点方法将边界框回归划分为不同的属性回归任务,但所有这些属性仍然采用统一的样本分配策略和损失计算方式:

其中,表示边界框属性的四个回归任务,是中心点采样分配策略,是L1损失函数,是中心点方法的回归损失。为克服这个限制,DAR深解耦边界框属性的回归。它可以灵活应用于不同的属性组合,并为它们构建独立的样本分配策略。给定一个包括7个属性({x,y,z,l,w,h,θ})的真实边界框 ,如图4所示。DAR仅应用于x和y(物体目标的2D中心),或者可以与其它属性自由组合应用。DAR的回归损失计算如下:

这个方法允许DAR选择性地建模特定的属性回归任务,同时防止不必要的冗余回归任务。

动态样本选择.确定建模需要的长程样本则成为后续的任务。已知物体点稀疏且不均匀。在物体中心点周围众多的候选样本中,只有少量含有丰富点数的样本。基于这个观察,DAR主要根据点云的分布特性(静态分配)来选择初始样本。DAR根据物体及其与激光雷达传感器的相对位置,选择具有更丰富点云的样本。请参阅补充材料了解更多设计详情。

在训练期间,DAR使用IoU评估中心样本的性能。一旦网络实现了稳定的预测能力,即中心样本预测IoU性能超过阈值 ,DAR将根据中心点周围样本的动态IoU性能选择前k个最佳样本(如图4所示)。在稳定期内,选择的样本数量保持不变。这样,DAR可以适当地捕捉到具有丰富回归线索的长程回归间隔样本。

采用以上设计,由DAR建立的长期回归模型可以为目标框回归任务提供更精确的定位。重要的是,DAR引入的推理时间和内存占用极少。

Interactive Quality Prediction (IQP)

不一致的分类分数和回归质量常见于检测任务中。在3D目标检测中,修正分类分数与质量(IoU)预测分支被视为一种有效的方法。然而,正如之前讨论的,现有IoU回归建模方法为低质量预测结果提供了不可靠的IoU预测,导致次优性能。事实上,这些低质量预测通常定义为负样本,在分类任务中获得足够的监督。受到这一启发,IQP试图引入分类任务与质量回归任务进行联合优化。

  • 无类别分类:为了与质量预测信息 交互,IQP 首先构建无类别分类信息 (前景和背景分类信息)。为了得到 , 作者提出了两种策略。一种简单的策略,IQP(v1),涉及将原始分类分支 的类别通道压缩如下(见图5(a)):

其中 表示最大函数, 是类别数量。可以通过对 在第一维上的最大值来近似位置是物体的概率。另一种策略,IQP(v2),通过一个独立的分支生成 ,如下所示(见图5(b)):

其中 表示共享的BEV特征, 是卷积操作。如图3所示, 可以通过两个卷积得到特定尺寸特征,类似于检测 Head 中其他分支。 的监督信号来自原始分类标签 的压缩,如式3所示。

二进制交叉熵(BCE)损失用于计算分类的损失值。在_Ablation Studies_中比较了两种策略的作用。

图4:解耦属性回归。"center","center z","lwh" 和 "" 分别表示边界框的中心,中心高度,长度,宽度和高度,以及方向角。IoU_{center} 是中心样本质量的好代表。"center z" 和 "lwh" 可实现边界框属性回归。IQP采用 损失来计算稀疏正样本的损失值。"" 表示标签的置信度。

图5:交互式质量预测的概化图。"Cls","Attr."和"Obj."分别表示分类分支,边界框属性回归 branch 和 无类别物体分类 branch。

  • 任务交互:使用上述分类任务建立的 具有基本的分类能力。背景分类能力在回归任务中缺乏,可以用于压制质量预测任务中那些低质量预测的不稳定输出。"中心","中心 z" 和 "lwh" 可实现 与属性回归 task 的交互训练以提高预测质量。
  • IQP 通过递归的策略与 预测: 。 是GT的预测框和IoU值 的函数。质量监督信号来自正样本的预测框和GT的 IoU :

其中 是正样本数量。 遵循PillarNet[21]和SA-SSD[17],IQP采用 损失来计算正样本的损失值。

IQP通过联合优化物体分类和质量回归任务来确保各种质量预测结果的可靠IoU预测。与直接回归IoU不同,IQP可以提高低质量预测结果的IoU预测准确性。此外,IQP非常简洁高效,引入的两个附加卷积操作对推理速度影响最小。

4 Experiments and Results

Datasets and Evaluation

与SOTA方法进行比较,对两种数据集(Waymo [22]和ONCE [16] val )的全部进行训练。Waymo数据集的训练集用来说明算法的泛化能力。针对Waymo数据集的实验采用了训练集的20%,进行了消融和泛化实验。两种数据集都使用了官方评估指标,对算法的性能进行了评估。

Implementation and Details

数据预处理:为了容纳不规则点云数据到检测器中,原始点云空间进行了 Voxel 化处理。对于Waymo/ONCE数据集,检测范围和 Voxel 尺寸分别为[-75.2, 75.2],[-75.2],(-2.0/-5.0, 4.0/3.0)m和(0.1, 0.1, 0.15/0.2)m。DIRM利用了一些常见的数据增强策略[23, 24]。

训练细节:DIRM采用Adam优化器进行端到端优化,采用One-cycle策略。除数系数为10,动量范围为[0.95, 0.85],权重衰减率为0.05。在两个数据集上的最大学习率都设置为0.003。DIRM在Waymo数据集上进行30次迭代。对于ONCE数据集,检测器训练了80次。实验在4个带有40GB内存的NVIDIA A100 GPU上进行,两个数据集的批处理量都设置为16。

Comparison with State-of-the-Art Detecotors

值得注意的是,建议的DIRM带有更深的 Backbone 网络,在所有当前的stage-1方法中超过了所有方法,包括使用 Transformer 的最新的SOTA方法DSVT[26]。与基于深度学习的方向检测器(如DETR)[27]等方法相比,DIRM在检测速度和精确度方面具有优势,其检测速度为1.03秒,而DETR在1.5帧/秒左右。此外,DIRM还具有很高的效率,它可以在不超过10ms的延迟下进行实时的目标检测和跟踪。

此外,对于具有更深 Backbone 网络的DIRC,实验结果表明,DIRC在检测和跟踪目标时具有出色的性能,同时保持了出色的结果质量。DIRC与DIRM具有相同的效果,但在速度方面稍逊一筹,其检测和跟踪时间分别为2.42秒和2.59秒。

Ablation Studies

在Tab 3中,展示了每个DIRM组件对Waymo _val_集的影响。中心点 [20] 作为基准方法。如第二行和第三行所示,DAR和IQP分别将基准提高2.08/1.85和3.57/3.59 mAP/mAPH。将DAR和IQP结合可以进一步通过4.98/4.91 mAP/mAPH提高基准性能。上述消融实验揭示了DAR和IQP在所有类别中都是性能改进的关键。通过系统地从上到下剥离每个模块进行消融实验,具体讨论和补充材料中进行。

DAR. 为了证明DAR的有效性,进行了涉及四种样本分配策略的实验(表4)。如第一行所示,直接增加样本数量不能提高性能,甚至严重损害了行人和 cyclist 类别的性能。从第二行和第三行可推理,动态分配在最好受益类别(车辆)上比静态分配提高了0.75/0.74 AP/APH。这一现象表明,使用适应性最优样本选择的建模可以有效减轻计算损失时的多样本策略负担。第三行和第四行之间的比较表明,DAR(切换)是先进策略(Fig. 4)。原因在于,在早期训练阶段,质量预测不可靠,静态样本分配策略可以确保早期训练的稳定性。因此,DAR(切换)是最终解决方案。

表2:DIRM与 state-of-the-art 方法在 ONCNE val 集上的 3D 目标检测性能。 表示 ONCE 提供的官方性能基准。 用公开发布的代码复现的检测性能。 表示具有更深背骨的DIRM以及加粗的值为最高 mAP/mAPH。 Baseline 方法为中心Point。

表5:不同质量交互策略的比较。

IQP. 为了说明 IQP 的有效性,使用了不同的质量交互策略进行了实验。如表5所示,第一行与第二行的比较表明,与类无关的分类信息交互可以有效改善回归模型质量,尤其是对于行人类别(+3.60/4.10 L2 mAP/mAPH)。这是因为在使用不可靠的质量预测来校正置信度分数时,可能导致错误的位置远离真实目标,从而导致厘米 Level 的误差,极大地限制了小类别模型的性能。第二行和第三行的结果表明,建立一个独立的类无关的分类预测分支可以提供更准确的物体置信度,从而显著提高检测性能(+0.36/0.31 L2 mAP/mAPH)。因此,作者选择 IQP (v2)作为最终解决方案。

推广能力

为了评估 DIRM 的推广性能,将其扩展到具有不同点云表示和检测阶段的常用方法中。如表6所示,DIRM 对基于 Pillar 的方法如中心点(Pillar) [15] 和 PillarNet [16],分别提高了3.63/3.66 L2 mAP/mAPH 和1.98/1.96 L2 mAP/mAPH。值得注意的是,对于基于 Pillar 的方法,DIRM 在车辆类别上表现出显著的性能提升,将中心点(Pillar) 提高了4.63/4.60 L2 AP/APH。这表明,对基于 Pillar 的方法来说,不准确的局部化对车辆类别产生了更大的影响。另外,DIRM 扩展了其有效性,不仅在单阶段方法上显著提高了以前的SOTA双阶段方法 PV-RCNN++ [16],并在2.04/2.07 L2 mAP/mAPH。

这些结果突显了DIRM出色的推广能力,证明了其适用于具有多样化点云表示和检测阶段的中心方法。请参阅补充材料以获取不同数据集上的更多实验结果。

Quantitative Analysis

为了进一步验证DIRM校正中心属性不准确回归的能力,作者来分析中心属性的均方相对误差(MRPE)。如图6(a)所示, Baseline 方法[15]对所有类别平均产生130%的相对误差。DIRM通过将此错误降低12%。值得注意的是,对于车辆类别, Baseline 方法达到160%的错误,而DIRM通过降低23%来显著减轻这种错误。此外,作者通过在不同阈值下评估预测质量与实际质量的均方误差,以研究DIRM对质量预测的准确性影响。如图6(b)所示,DIRM在质量预测上的改善随着质量阈值的减小越来越明显。在阈值为零时,DIRM将均方误差降低16%,与 Baseline 相比。总的来说,DIRM不仅显著提高了性能,而且有效改善了中心属性的回归准确性和质量。

此外,DIRM在 Baseline 方法的推理延迟、模型参数和浮点运算符保持一致的同时,实现了4.98/4.91 L2 mAP/mAPH的显著改进(见表7)。与基于SOTA的 Transformer 方法[14]相比,DIRM在推理延迟、模型参数和检测性能方面表现突出。

这些结果证明了DIRM在推理延迟、模型参数和检测性能方面的卓越表现。

5 Conclusion

本研究表明,阻碍基于中心的单阶段检测器性能的主要问题是中心属性的建模不完整和质量回归任务。

为了充分发挥基于上述观察的单阶段流程的潜力,本研究引入了两个新颖的组件,分别是解耦属性回归(DAR)和交互式质量预测(IQP)。

具体来说,DAR通过深度解耦边界框属性和独立的自适应多样本分配策略,为中心属性建立了长距离回归建模。

另一方面,IQP通过结合擅长建模负样本的对象分类信息,优化了质量预测,以提供低质量预测的可靠IoU预测。

通过即插即用的DAR和IQP组件,我们提出了一种高性能的单阶段检测框架DIRM,其性能可与两阶段方法相媲美,并且可以轻松地集成到任何基于中心的方法中。

在Waymo和ONCE数据集上的广泛实验表明,DIRM在推理延迟、模型参数、检测性能和泛化性能方面取得了卓越的综合表现。特别是,DIRM在两个数据集上都获得了SOTA的单阶段检测性能,超过了之前的SOTA两阶段方法。

参考

[1].Decoupled and Interactive Regression Modeling for High-performance One-stage 3D Object Detection.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Works
  • 3 Dirm
  • Decoupled Attribute Regression (DAR)
  • Interactive Quality Prediction (IQP)
  • 4 Experiments and Results
  • Datasets and Evaluation
  • Implementation and Details
  • Comparison with State-of-the-Art Detecotors
  • Ablation Studies
  • 推广能力
  • Quantitative Analysis
  • 5 Conclusion
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档