社区首页 >专栏 >多视角行人检测遇不同摄像系统性能滑坡，无监督领域自适应法实现无缝部署 !

多视角行人检测遇不同摄像系统性能滑坡，无监督领域自适应法实现无缝部署 !

未来先知

发布于 2025-02-25 08:06:31

1830

作者探讨了一种多视角行人检测方法，在这种情况下， Token 数据是由不同于测试使用的多摄像机系统收集的。尽管最近的多视角行人检测器在用于训练的摄像系统上表现出色，但在应用于不同设置时，其性能会下降。为了实现跨多种摄像系统的无缝部署，作者提出了一种无监督领域自适应(UDA)方法，该方法无需额外的 Token 数据即可使模型适应新的摄像系统。具体而言，作者利用了一种新颖的伪标签技术与预训练教师自我训练框架，专门适用于多视角行人检测。该方法在多个基准测试中达到了最先进的性能，包括MultiviewX Wildtrack。与之前的方法不同，作者的方法消除了对外部单目 Token 数据集的依赖，从而减少了对 Token 数据的依赖性。广泛的评估结果证明了该方法的有效性，并验证了关键设计选择。通过使模型能够在不同的摄像系统配置下进行稳健的适应，作者的工作增强了多视角行人检测的实际应用，并为未来的研究奠定了牢固的UDA基础。

1. Introduction

多视图检测旨在从由多个摄像头同时拍摄的一组图像中检测物体，每个摄像头提供了同一场景的不同视角。利用多个视图可以提高对遮挡的鲁棒性，并有助于推理物体的三维属性，这在单一摄像头的情况下可能会更具挑战性。在本文中，作者专注于多视图行人检测，目标是从多个固定摄像头拍摄的图像中生成鸟瞰图（BEV）中的占用地图。这一任务在监控[12]、机器人技术[8]、体育分析[35]以及自主移动机器人控制[44]等应用中具有重要意义。

近期的多视角行人检测方法会联合考虑所有输入图像，以学习一个密集的鸟瞰图(BEV)特征图。随后，通常使用卷积层对该BEV表示进行细化，以获得概率占用图(POM)，从中可以提取检测结果。尽管这些方法取得了显著成果，但它们依赖于标注的多视角数据集，这类数据集由于多相机布置和图像标注的成本问题通常是稀缺的。在实践中，标注数据通常限于仿真或单一的真实世界相机布置，这导致了过拟合，并且在不同相机布置下泛化能力较差。

从实际测试环境中收集未标注数据相对较为直接，因此无监督域适应(UDA)成为了解决多视角检测中的泛化挑战的有前景的方法。UDA 在单目感知任务中得到了广泛应用，例如图像分类、语义分割和目标检测，其中均值教师自训练方法尤为流行。该方法使用均值教师生成的伪标签对学生模型进行训练，均值教师是由学生参数的指数加权平均组成的。然而，据作者所知，目前仅有 Lima 等人 [27, 28] 的工作探索了在多视角行人检测中的无监督域适应。他们在方法中通过自训练来适配多视角检测器，但依赖于基于大量带标签单目数据集的预训练外部检测器，这限制了该方法在缺乏此类资源的应用场景中的实用性。

作者通过考虑一个严格的未监督域适应(UDA)设置来解决这一问题，该设置排除了任何外部 Token 数据集或预训练检测器。由于受限的数据集和衍生检测器的许可问题，这种设置在实践中具有相关性；此外，从概念上讲也十分有趣，因为它为进一步扩展框架到新的目标类型提供了可能性。作者在此基础上借鉴了均值教师自我训练的方法，并将其应用于多视角行人检测，同时确定了严格未监督域适应设置的关键成功因素。尤为重要的是，作者提出了一种新颖的后处理方法，以增强伪标签的可靠性，显著提高了自我训练的有效性。作者的方法在多个基准测试中实现了最先进的性能。此外，尽管最近的研究主要集中在弥合模拟与现实世界的领域差距上，但很少有研究关注不断变化的摄像头配置所带来的挑战。为此，作者引入了两个新的基准测试，专门用于跨摄像头配置适应性研究。

作者的贡献可以概括为：

作者在严格的UDA设置下揭示了多视角行人检测中自我训练的潜力，并开发了一种领先的方法来解决这一问题。
作者提出了一种简单而有效的后处理方法，该方法可以提高伪标签的可靠性，从而增强自我训练的效果。
作者在多个已建立的标准基准和两个新基准上展示了作者方法的有效性，这两个新基准是作者专门为了解决跨相机 rigs 调适问题而引入的。

2. Related Work

2.1. Multi-view pedestrian detection

多视角行人检测旨在利用不同视角的摄像头，以实现比单一摄像头更强健的3D检测和定位。早期方法依赖于每个视角的背景减除，并利用结合贝叶斯推理的图形模型来推理3D地面平面的位置。由于在拥挤场景中背景减除不够具有区分性，许多后续工作用更具先进性的单目感知方法取代了这一组件，例如2D边界框检测、人体姿态估计[26]或实例分割[34]。这些方法还提出了融合单个检测的新方式，例如将检测投影到地面平面上，并基于欧几里得邻近度进行分组，或者采用条件随机场(CRF)[36]。然而，因为这些方法依赖于单目感知，任何单个视角中的缺陷都可能影响整体性能。

与之相对，端到端方法会综合考虑所有输入图像，从而能够更全面地理解视图间的对应关系。早期的方法通过使用卷积神经网络（CNN）处理每个视图以提取特征，然后应用多层感知机（MLP）[6] 或条件随机场（CRF）[3] 来生成检测结果，这些方法通过联合考虑这些特征来进行检测。

最近，MVDet [20] 引入了一种新的方法，即将单个视图中的特征通过透视变换投影到鸟瞰图（BEV）中，从而在BEV中创建了密集的特征图。许多近期的方法在此基础上进行了改进，包括改进的视角特征提取、BEV中的增强特征聚合、修改的解码器以及多视图特定的数据增强技术。虽然这些方法继续推动多视图行人检测领域的进步，但它们通常需要 Token 的多视图数据集来进行训练，并且难以很好地适应新的相机设置。本研究旨在减少对标注多视图数据的依赖，从而使这些方法在实际应用中更具实用性。

2.2. Unsupervised Domain Adaptation (UDA)

给定来源于源域的带标签数据集和来源于目标域的无标签数据集，无监督领域适应（UDA）旨在将知识从源域转移到目标域，使得模型能够在不需要额外标注的情况下泛化到新的数据分布。UDA在计算机视觉任务中得到了广泛应用，包括图像分类、语义分割以及目标检测。近年来，UDA方法主要遵循两种途径：对抗学习和自助学习。对抗学习旨在创造跨领域的不变输入、输出或特征，帮助模型忽略与任务无关的领域变化。而自助学习则涉及使用伪标签在目标数据集上以监督方式训练学生模型[23]。为了提高伪标签的质量，许多方法[4, 5, 10, 21, 25]使用均值教师[40]——即学生参数的指数移动平均——在训练过程中生成这些标签。然而，伪标签的准确性问题仍然是一个重大挑战[5, 25, 45]。此外，虽然UDA已经在单目任务上取得了显著进步，但将其应用于多视图感知仍鲜有研究。

在少数尝试将UDA方法应用于多视图行人检测的研究中，Lima等人[27]提出了将检测器从[43]适应到未标注的目标数据的方法，并使用自训练手段。然而，该方法由于伪标签质量低，仅在单个基准测试上获得了小幅改进。Lima等人后来通过引入均值教师进行伪标签生成[28]改进了其方法。尽管如此，这种方法的成功依赖于预先使用外部检测器生成的伪标签进行训练[26]，而这些伪标签又依赖于对大规模标注数据进行单一视图人体姿态监督训练。因此，该方法仍然需要大量的标注数据，可能限制其实用性。相比之下，作者的工作提出了一种无需任何辅助标注数据集或从中派生的预训练模型的多视图行人检测无监督领域适应方案。

3. Methods

在本节中，作者介绍了用于多视角行人检测的UDA方法，该方法旨在利用 Token 的源数据和未标注的目标数据来训练适用于目标领域的多视角检测器。首先，作者将详细介绍检测器架构。

随后，阐述作者的整体UDA策略，并最终介绍生成高质量伪标签的方法。

3.1.Multi-view detector

3.2. Mean teacher self-training

3.3. Local-max pseudo-labeling

4. Experiments

4.1. Experimental setup

4.2. Implementation details

4.3. MVUDA compared with previous methods

在本节中，作者将作者的UDA方法与此前的SOTA方法进行了对比，并将其与仅在源域上训练的 Baseline 方法以及Oracle方法进行了比较。Oracle方法类似于 Baseline 方法在源域上进行了训练，但在目标域上使用了标签。关于定性的结果，请参阅补充材料。表1展示了MultiviewX Wildtrack和Wildtrack MultiviewX上的结果。虚线将使用辅助标注数据的方法与仅在源域上使用标签的方法分隔开来。可以看出，与所有研究指标上的基准性能相比，作者的UDA方法显著提高了基准方法的表现。此外，作者的UDA方法在不依赖辅助标注数据的方法中MODA值最高。值得一提的是，在Wildtrack MultiviewX的情况下，作者的UDA方法将基准方法的MODA值从35.9提高到了82.4，尽管[28]方法依赖于一种源自大量标注单目数据集的单目检测器，但其表现仍然远逊于作者方法。

4.4.Ablation study

为了研究 Mean Teacher (MT) 和数据增强 (Aug) 在自我训练 (ST) 框架中的重要性，作者在表3 的两个基准上消融了这些组件。其中，第一行展示了未进行任何适应时的表现（ Baseline ）。此外，不使用 Mean Teacher 的自我训练意味着冻结的 Baseline 模型在训练过程中生成伪标签。可以看出，单独使用自我训练相较于 Baseline 带来了显著改进。而且，加入 Mean Teacher 和数据增强后，结果有了更显著的提升。值得注意的是，在从仿真到现实的基准中，数据增强的影响更大，它可能是弥合更大领域差距的关键因素之一。

4.5. In-depth analysis of MVUDA

在本节中，作者详细分析了所提出方法的关键组件，包括引入的伪标签技术、参数以及数据增强方法。通常情况下，检测到的局部极大值更为可靠。然而，由于vanilla方法通常会产生更多的检测结果，因此其召回率更高。值得注意的是，当值较小时，两种方法之间的差异更为明显。这是因为在此情况下，vanilla后处理方法会生成许多非局部极值的检测结果，这些检测结果可靠性较低，因此作者的方法在这种情况下可以实现更高的MODA。因此，作者的方法能够在较低置信度下利用可靠的伪标签，这在Wildtrack MultiviewX基准测试中尤为有益。

除另有说明外，本研究中的自训练包含局部最大伪标签 Token ，参数设置为 ( k_d = 3 ), (\alpha = 0.99), (\lambda = 1)，且不进行数据增强。再次强调，对于从 MultiviewX 到 Wildtrack 的阈值 (\tau) 设定为 0.4；从 Wildtrack 到 MultiviewX 的阈值 (\tau) 设定为 0.2；而对于所有其他基准，则设定为 0.3，以上设定遵循表4 中所呈现的实验结果。

数据增强由于数据增强是自我训练的一个重要组成部分，作者研究了三种不同的方法……

5. Conclusions

近年来提出的不同方法被用于多视角行人检测。如表8所示，作者进行了Dropview (DV) [43]、3D随机遮挡 (3DR) [32]以及MVAug中开发的两级数据增强 (MVA) [11]的相关实验。可以看出，这些增强方法在大多数基准上的性能都有所提升。然而，当组合使用不同的方法时，最理想的性能是由DV和3DR实现的（不包括MVA）。

作者在补充材料中提供了对 Baseline 模型泛化能力的研究，结果显示相似的结果。鉴于[11]关于MVAug的良好表现，这些结果显得有些出乎意料。不过，这也说明了MVAug的优势，因为与Dropview和3DR相比，MVAug不仅对输入图像进行增强，还对应用于特征的透视变换进行增强，从而使得其更为复杂。