清华/上海AI Lab/东南大学/武大联合提出 POINTOBB-V2 迈向更简单、更快速、更强劲的目标检测！

未来先知

发布于 2024-11-25 16:37:08

32400

代码可运行

文章被收录于专栏：未来先知未来先知

运行总次数：0

代码可运行

单点有监督定向检测在社区内已引起关注并取得初步进展。与依赖一次样本或强大预训练模型（如SAM）的方法不同，PointOBB因具有先验自由特征而展现出前景。在本文中，作者提出PointOBB-v2，一种更简单、更快、更强大的方法，用于从点生成伪旋转框，而不依赖任何其他先验。具体而言，作者首先通过非均匀的正面和负面采样训练网络生成一个类概率图（CPM）。作者证明了CPM能够学习近似的物体区域和其轮廓。然后，主成分分析（PCA）被应用于准确估计物体的方向和边界。通过进一步引入分离机制，作者解决了CPM上的重叠问题，使其在高密度场景中能够运行。与先前的最先进方法PointOBB进行大量比较，作者的方法在DOTA-v1.0/v1.5/v2.0数据集上的训练速度提高了15.58倍，准确率提高了11.60%/25.15%/21.19%。代码:https://github.com/taugeren/Point0BB-v2 这显著推动了单点有监督定向检测在模块化跟踪领域的最前沿。

1 Introduction

定向目标检测对于准确 Token 小而密集的目标至关重要，尤其是在远程感测图像、零售分析和场景文本检测等场景中，定向边界框（OBBs）能够提供精确的标注。然而，标注OBBs的工作量较大且成本较高。因此，近年来出现了许多弱监督方法，包括水平边界框监督和点监督。

水平边界框监督的代表性方法包括H2RBox 和H2RBox-v2 。此外，点监督只需为每个目标 Token 点和类别，可以显著降低标注成本。值得注意的是，点监督方法包括P2RBox 、Point2RBox 和PointOBB（Luo等人，2024）。

如图1所示，现有的基于点集的定向目标检测方法可以广泛地分为三类：

(a)基于SAM的方法（Cao等人，2024；张等人，2024）依赖于强大的SAM（Kirillov等人，2023b）模型，尽管在自然图像上有效，但在跨领域任务，如航空图像，尤其是在小目标和密集场景中，存在困难。此外，由于后处理，基于SAM的方法速度慢且内存占用大；

(b)先验弱监督定向目标检测（WOOD）方法，如Point2RBox（Yu等人，2024），整合了人类先验知识，从而降低了泛化性，因为不同的数据集需要不同的先验知识。此外，端到端的设置限制了灵活性，阻止了这些方法利用更强大的检测器并从中受益；

(c)模块化WOOD方法（Luo等人，2024）不依赖人工设计的先验知识，通过将伪标签生成与检测器解耦，提供了更大的灵活性，使其更适合于高效和可扩展的检测任务。

作为以前最先进的方法，PointOBB 属于模块化的 WOOD 类别，并为基于点的检测提供了可行的解决方案。然而，它有几个实际局限性：伪标签生成的过程非常缓慢，大约需要后续检测器训练的 7-8 倍时间。此外，由于存在多个视图转换，它的训练需要大量 GPU 内存。此外，感兴趣区域（RoI） Proposal 数量的变异性可能导致内存问题，特别是在密集物体场景中。虽然限制 RoI Proposal 数量可以缓解这个问题，但会导致性能下降。

考虑到上述问题，作者的动机是设计一个更简单、更快、更强大的方法，从而发展出PointOBB-v2。作者的方法旨在保留模块化WOOD范式的优势，同时解决PointOBB在速度和内存消耗方面的效率问题，使其更适合实际应用。

点OBB-v2提出了一个新颖且简洁的流水线，摒弃了教师-学生结构，在伪标签的准确性和生成速度上取得了显著改进，同时提高了内存效率，尤其是在小而密集的目标场景中。具体而言，作者从点标注中生成类概率图（CPM），并设计了一种新颖的样本分配策略，以捕捉CPM中的目标轮廓和方向。接下来，作者根据概率分布应用非均匀采样，并使用主成分分析（PCA）确定目标边界和方向。为解决密集目标分布问题，作者设计了一个分离机制，以减少由连接的CPM在伪标签生成过程中产生的混淆。

实验结果表明，作者的方法在各种数据集上与PointOBB相比，始终能够提高准确率、速度和内存效率，实现多个最先进的结果。具体来说，在DOTA-v1.0数据集上，当使用Rotated FCOS进行伪标签训练时，作者的方法将mAP从PointOBB的30.08%提高到41.68%，提高了11.60% mAP。

在包含更高密度小目标的更具挑战性的数据集，如DOTA-v1.5和DOTA-v2.0上，作者的方法分别实现了36.39%和27.22%的mAP，相较于PointOBB提高了25.15%和21.19%，证明了在处理小目标和密集堆叠物体的鲁棒性。此外，作者的伪标签生成过程比PointOBB快15.58倍，将耗时从22.28小时缩短至1.43小时。在DOTA-v1.5和DOTA-v2.0数据集上，由于PointOBB的高内存消耗，需要限制RoI proposals的数量，而作者的方法不受此限制，内存使用约为8GB。

作者的贡献可以概括为以下几点：

作者提出了一种新颖且高效的面向点监督的定向目标检测流水线，该流水线消除了耗时和耗内存的教师-学生结构，从而显著提高了伪标签生成的速度并减少了内存使用。
在没有额外深度网络设计的情况下，作者的方法仅依赖于类概率图来生成精确物体轮廓，利用高效的PCA来确定物体方向和范围。
作者还设计了一种向量约束方法，以在密集场景中区分小目标，从而提高检测性能。

实验结果表明，作者的方法在多个数据集上始终优于PointOBB，在DOTA-v1.0/v1.5/v2.0数据集上分别实现了11.60%/25.15%/21.19%的性能提升，同时实现了伪标签生成的15.58倍速度提升，且在不限制RoI proposals的情况下，内存使用减少至约8GB。

2 Related Work

除了水平检测，定向目标检测（Yang等人，2018年；Wen等人，2023年）已受到广泛关注。

在本节中，作者首先介绍由旋转框提供的定向检测。然后，讨论了点监督定向检测和其他弱监督设置的方法。

RBox-supervised Oriented Detection

代表性工作包括基于 Anchor 点的检测器 Rotated RetinaNet (Lin等人，2020年)， Anchor-Free 点检测器 Rotated FCOS，以及两阶段解决方案，例如 RoI Transformer (Ding等人，2019年)，Oriented R-CNN 和 ReDet (Han等人，2021年)。一些研究通过利用对齐特征来增强检测器，例如 R{}^{3}Det (Yang等人，2021年) 和 S{}^{2}A-Net (Han等人，2022年)。

角度回归可能面临边界不连续问题，并已开发出相应的解决方案，包括调节损失以减轻损失跳跃，角度编码器将角度转换为无边界编码数据，以及基于高斯分布的损失将旋转边界框转换为高斯分布。

基于 RepPoint 的方法提供了预测一组样本点来限定物体空间范围的替代方案。

Point-supervised Oriented Detection

最近，一些基于点监督的定向检测方法被提出：

  1) P2RBox (Cao等人，2024)、PMHO (Zhang等人，2024)和PointsAM (刘等人，2024) 利用SAM (Kirillov等人，2023a)的零样本点- Mask 能力提出基于点 Prompt 的定向目标检测。
  2) Point2RBox (余等人，2024) 引入了该领域基于知识组合的端到端方法。
  3) PointOBB (罗等人，2024) 通过尺度敏感一致性和多实例学习实现了基于定向目标检测的点标注RBox生成方法。

在这些方法中，P2RBox，PMHO和PointSAM需要使用在大量标注数据上预训练的SAM模型，而Point2RBox需要每个类别的一张（即人类先验）样本。

尽管它们实现了更好的准确性，但它们并不像PointOBB那样通用。

因此，作者选择PointOBB作为作者的 Baseline ，以开发一个更简单、更快、更强大的方法，PointOBB-v2。

Other Weakly-supervised Settings

相较于Point-to-RBox，一些其他弱监督设置得到了更好的研究。这些方法有可能通过使用级联 Pipeline 应用到作者的Point-to-RBox任务设置。

在实验中，作者也采用了由最新弱监督方法驱动的级联 Pipeline 进行比较。在这里，介绍了一些代表性工作。

HBox到RBox。H2RBox（杨等人，2023a）绕过了分割步骤，直接从HBox标注中实现RBox检测。当同一目标具有不同方向的HBox标注时，几何约束限制了目标的候选角度。通过一个自监督分支消除不需要的结果，建立了HBox到RBox范式。

提出了增强版H2RBox-v2（余等人，2023），利用目标的镜像对称性估计它们的角，从而进一步提高了HBox到RBox性能。EIE-Det（王等人，2024）使用显式等价分支学习旋转一致性，使用隐式等价分支学习位置、长宽比和缩放一致性。一些研究使用额外的标注数据进行训练，这些方法也很有吸引力，但不如通用。

提出了几种与Point-to-HBox相关的算法，包括：

1) P2BNet（Chen等人，2022）在 Token 点周围生成不同大小的样本框，并对这些样本框进行分类，以实现点监督的水平目标检测。

2) PSOD（Gao等人，2022）通过使用边缘检测器和自适应 Mask 填充实现点监督的显著目标检测。

点对 Mask （Point-to-Mask）提出了一种方法，使用单个目标点的标注进行训练，即可实现全像素分割。SAM 通过输入点/HBox Prompt 生成目标 Mask 。

虽然可以通过查找分割 Mask 的最小外接矩形获得RBoxes，但这种复杂的流水线可能成本较低且表现较差。

3 Method

作者的任务专注于定向目标检测，采用单点监督。首先，作者利用训练数据集中每个目标的点标注生成伪标签，然后用这些伪标签训练现有的检测器。

如图2所示，模型首先根据点标注生成一个类概率图（CPM）。具体来说，在训练过程中，作者设计了一个正负样本分配策略，导致生成的CPM概括了目标的粗糙轮廓，概率值集中在点和物体轴线上。

根据CPM，作者生成伪定向边界框。作者针对每个目标的点标注，在CPM内的概率分布的指导下进行非均匀采样。作者将采样过程转换为加权概率方法，在保持相同期望结果的同时消除随机采样引入的方差。通过将加权网格点应用主成分分析（PCA），作者可以推理出物体的方向。

然后，通过将阈值化的CPM与推理出的方向相结合，确定物体的边界。此外，为了处理密集的物体场景，作者引入了一种区分紧密相邻物体的机制，以确保有效分离和精确检测。

Class Probability Map Generation

类概率映射（CPM）表示特征图上每个类别的概率，其值在[0, 1]之间变化。为了生成CPM，作者的模型首先将一个大小为（C, H, W）的图像I作为输入，并将其通过一个具有FPN（Lin等人，2017年）结构的ResNet-50（He等人，2016年） Backbone 网络进行处理。最终，类概率映射是从FPN的最高分辨率特征图导出的，然后通过投影层进行投影。输出是一个大小为（N_class, H_0, W_0）的映射。

Label Assignment

作者的方法的关键组成部分之一是设计一个强健的样本分配策略，该策略对于正负样本都适用。这种策略对于构建一个准确的CPM（轮廓质心映射）至关重要，它描绘了物体的粗略轮廓，在物体中心及其轴线上集中更高的概率。

为了确保可靠地区分物体，尤其是在人口密集的场景中，作者的方法通过引入额外的机制来有效地区分紧密相邻的物体。作者在图2的上右部分说明了标签分配的示例。

样本分配过程的具体细节如下：

正标签分配。对于正样本，作者选择每个点周围固定半径b_{1}（在作者的模型中设置为6）内的所有点。如果一个点位于多个这样的半径内，它将被分配给最近的中心。正样本的条件如下：

负标签分配。

给定个真实目标（GT），对于每个 GT，作者根据欧几里得距离确定其最近邻目标 GT。这给出一个具有维数的向量，其中每个元素表示 GT 和其最近邻之间的最小距离。

然后，在 GT 的周围画一个半径为的圆（在作者的模型中，设置为 1），其中是一个固定的比例常数。所有此类圆之外的点被指定为负样本。

对于所有的 GT 属于 GT，如果，则被标记为负样本。

除了上述定义的负标签外，作者还将物体中间区域设置为负，这样做是为了使密集堆叠物体的边界更加清晰。

圆内的点被分配为负样本。该条件定义如下：

鲁棒性。 尽管作者没有明确定义正负样本基于精确的物体轮廓或定向边界框，这可能导致在标签分配过程中出现一些不准确性，但这并没有显著阻碍作者的方法学习准确物体轮廓的能力。

这些微小的标签分配不准确性，尤其是在人口密集区域或具有极端比例的物体上，不会影响方法的整体鲁棒性和有效性。如图3所示，作者的策略能够学习到正确的轮廓，即使对于具有大比例和密集场景的物体也是如此。

Orientation and Boundary estimation via PCA

在获得CPM之后，作者根据类概率在真实值周围取样点，然后将取样点应用主成分分析（PCA）以确定物体的方向。如图2底部所示，作者根据对应物体类别的CPM概率在真实值周围取样点。

虽然PCA在期望值上提供了正确的原始方向，但采样的随机性可能会导致从单次计算结果中得到的方差。尽管通过多次采样运行的平均可以降低这种方差，但也会增加计算成本。

为解决这个问题，作者提出了一种等效方法，将概率抽样转换为加权坐标变换。作者不再概率地采样点，而是为每个点 z_{i} 分配一个权重 p_{i}，以确保相同的期望结果，同时消除随机采样引起的方差。然后，协方差矩阵定义为：

作者对进行特征值分解：

对应于最大特征值λ1的特征向量v1被选择为主要的方向。由于Cz是一个实对称矩阵，次要方向可以保证与主要方向垂直。这种垂直关系对应于定向边界框相邻两边之间的垂直关系。

在确定主要和次要方向之后，作者沿着这些方向确定目标边界。从中心开始，沿着每个方向移动，当位置上的值低于阈值时停止，表示目标边界。

Object Differentiation in Dense Scenarios

在密集场景中，物体在CPM上可能难以区分，这可能影响PCA确定物体方向和边界识别的能力。为了解决这个问题，作者设计了一种“向量约束抑制”方法来消除边界歧义。

向量约束抑制。即使在密集场景中确定正确的方向后，物体的边界仍然可能不清晰，使用第3.3节中描述的概率阈值精确地定位它们变得困难。在大多数情况下，仅仅区分两个紧密排列的物体就足以定义物体的边界。

作者提出一个简单的约束条件：

对于每个 GT，作者首先找到其最近的同类邻居 GT，并计算 GT 和 GT 之间的向量。如果这个向量与主方向或次方向之间的夹角小于一个阈值（在作者的模型中设置为），则认为这个方向适用于边界定义。边界然后受以下条件的约束：

当为主方向或次方向时，GT 为与 GT 同一类别最近的物体，表示边界应比 GT 更接近 GT。

4 Experiment

Datasets

DOTA（Xia等人，2018年）是一个大规模的数据集，旨在在航拍图像中进行目标检测，涵盖各种物体类别和复杂度。DOTA有三个版本：

DOTA-v1.0 包含2,806张图像，共计188,282个实例，涵盖15个类别。这些图像的尺寸从800x800像素到4,000x4,000像素不等，且在尺寸和方向上存在显著的差异。

DOTA-v1.5 通过对 DOTA-v1.0 的扩展，为极小物体（小于10像素）添加标注，并引入了一个新的类别，Container Crane（CC）。它包括总共 403,318 个实例，同时保留了与 DOTA-v1.0 相同的图像数量和数据集划分。

DOTA-v2.0 进一步扩大了数据集，达到11,268张图像和1,793,658个实例，涵盖18个类别。新增了两个类别，分别是机场（AP）和停机坪（HP），提供了更丰富和具有挑战性的空中图像。

Experimental Settings

作者的实现基于Zhou等人（2022年）的MMRotate库。在伪标签生成阶段，作者使用动量随机梯度下降（SGD）作为优化器，训练模型6个周期。作者将权重衰减设置为1e-4，初始学习率为0.005，在第四个周期后衰减为原来的十分之一。训练批量为2。

在伪标签用于检测器训练阶段时，作者使用与MMRotate默认设置相同的检测器配置。

在整个训练过程中，作者使用随机翻转作为唯一的数据增强技术。作者的实验通过使用两块NVIDIA GeForce RTX 3090 GPU进行加速。

Main Results

结果显示，作者的方法在DOTA-v1.0数据集上实现了最先进的性能，与之前的领先方法相比，即PointOBB和Point2RBox。具体而言，在三种不同的检测器下，作者的方法获得了mAP{}_{50}分数为41.68%，41.64%和44.85%，分别比PointOBB提高了11.60%，8.33%和10.90%。

此外，与不包含人工先验知识的Point2RBox-RC相比，作者的方法实现了10.78%的显著提升。即使与利用手动草图辅助边界确定的Point2RBox-SK相比，作者的方法仍以4.58%的优势胜出。

这些结果证明了作者的方法在不需要人工先验知识的情况下具有强大的鲁棒性和有效性。

作者在DOTA-v1.5/v2.0上的结果。 DOTA-v1.5和DOTA-v2.0都由于密集堆叠的小物体数量增加而具有更高的难度。如表2所示，作者的方法在这些更具挑战性的数据集上显著优于其他方法，表明作者在处理小而密集分布的物体方面的优势，归因于作者设计的分离机制。

与PointOBB相比，作者的方法在DOTA-v1.5和DOTA-v2.0上都取得了显著的改进，绝对改进更大，百分比改进更高。例如，当使用ReDet进行训练时，作者的方法在DOTA-v1.5上的改进为36.39%，在DOTA-v2.0上的改进为27.22%，分别对应25.15%和21.19%的增加，超过了DOTA-v1.0上的10.90%改进。

此外，作者的方法始终优于Point2RBox。即使与结合了人类先验知识的Point2RBox-SK相比，作者的方法在DOTA-v1.5/v2.0上的改进分别为5.88%/3.79%，分别提高了5.88%/3.79%。

计算成本。作者的方法非常轻量级，主要归功于其单分支结构，该结构消除了传统教师-学生框架的需求。与其他方法不同，作者不需要在模型内进行多个图像转换或一致性约束。

如表3所示，作者模型的伪标签训练过程仅需1.43小时，比PointOBB所需的22.28小时快15.58倍。

在内存消耗方面，作者的方法也更为高效。对于密集物体场景如DOTA-v2.0，作者的方法使用约8GB的内存，这使得它适合大多数GPU。

相比之下，PointOBB在处理此类密集场景时面临内存不足的问题，需要限制运行的感兴趣区域数量以保证正常运行。然而，这种限制严重影响了检测器的性能，导致许多小物体未能被检测到。

Ablation Studies

标签分配。表4展示了作者的三种标签分配策略对模型性能的影响。在这些实验中，不同的标签分配策略被用来训练和生成CPM。当一种特定的策略应用于定义正面和负面的样本时，其余的点在训练过程中被忽略。作者观察到，使用一个简单的环形策略来确定正面样本，结果只有23.62%。

然而，通过采用更全面的策略来识别负面样本，性能显著提高至44.75%。此外，将目标之间的中间区域分配为负（称为"Neg./M"）得到了轻微的改进，将mAP提高至44.85%。这强调了负标签分配策略的关键作用，它对性能提升做出了巨大贡献。

PCA抽样策略和大小 作者在PCA抽样策略和采样大小的范围内进行了消融实验。如表5所示，作者的加权PCA计算方法与概率方法相比提高了3.45%的准确性。

作者还发现，这种改进主要得益于具有较大长宽比的类，如大型车辆和港口。这是因为伸展物体中的CPM在定向边界框的短轴上表现出显著的概率变化，而概率抽样方法引入了相当的不稳定性。

此外，作者还评估了PCA采样大小的影响。如表7所示，当采样大小设置为7时，作者的方法性能最佳。

向量约束。如表6所示，应用向量约束显著提高了检测性能。通过进一步分析，作者发现改进主要集中在密集物体类别，如小车、大车和船只。相比之下，稀疏类别如港口和游泳池几乎不受影响。

这一观察与该模块设计的初衷相符，该模块尤其针对密集堆叠物体场景。

Analysis

为了识别人类标注中存在的潜在不准确性，作者在中心点上添加噪声，以评估作者的模型的鲁棒性。作者选择了不同的阈值σ，并计算物体的缩放为S=\sqrt{wh}。中心点沿着均匀采样的方向随机偏移，偏移距离从范围在[-\sigma S,\sigma S]的均匀分布中抽取。随着中心点的扰动，性能略有下降。

如表8所示，平均mAP仅降低了2.27%，偏移10%。尽管如此，作者的方法仍然显著优于PointOBB，表明了作者的模型具有较强的鲁棒性。

质量伪标签的质量。 如图9所示，作者的方法在生成伪标签方面始终优于PointOBB，而在更具有挑战性的数据集（如DOTA-v1.5和DOTA-v2.0）上的性能提升更大。具体而言，作者在DOTA-v1.0、DOTA-v1.5和DOTA-v2.0上的mIoU改进分别为0.52%、13.00%和16.28%。值得注意的是，尽管DOTA-v1.0的改进只有0.52%，但使用作者的伪标签训练相同的检测器可以使其mAP比PointOBB提高近10%。

如图4所示，第一和第二列说明作者的模型学习到更精确的物体尺度，而第三列则表明，与PointOBB不同，作者的方法能够有效区分这些密集堆叠的物体。

如图9所示，作者选择了三个具有代表性的类别——小型车辆（SV）、大型车辆（LV）和船舶（SH），这些类别都具有小而密集的目标。与DOTA-v1.0相比，DOTA-v1.5和DOTA-v2.0引入了更多这些密集的目标。在这些具有挑战性的场景中，作者的方法显著优于PointOBB。例如，在DOTA-v2.0中，作者的方法实现了平均mIoU为42.91%，mAP为27.22%，而PointOBB分别降至26.63%和6.03%。

进一步的视觉化进一步证实了作者的模型在密集场景中生成更好的伪标签。在检测结果方面，如图4的最后一行所示，作者展示了一个具有25辆大型车辆的密集场景，其中作者的方法检测到所有车辆，而PointOBB只识别出15辆。

局限性。(a)作者的方法根据物体之间的最小距离分配负样本，需要每张图像至少两个点标注。(b)一些超参数（例如标签分配中的半径）是根据数据集设置的。在其他场景中可能需要调整。

5 Conclusion

在本文中，作者介绍了一种更简单、更快、更强的方法——PointOBB-v2，用于单点监督的定向对象检测。

通过使用类别概率图和主成分分析（PCA）来估计对象的方向和边界，我们的方法在摒弃传统的耗时且占用内存的教师-学生结构的同时，提高了检测精度。

实验结果表明，PointOBB-v2在多个数据集上始终优于之前的最先进技术，其在DOTA-v1.0/v1.5/v2.0数据集上的训练速度提高了15.58倍，准确率分别提高了11.60%/25.15%/21.19%，特别是在小尺寸和密集排列的对象场景中取得了显著的增益。

我们的方法在使用更少内存的情况下实现了速度和精度的显著提升，展示了其在实际应用中的有效性。

参考文献

[0]. PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-11-24，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度