YOLO0 你只向别人学习一次，新的多模态3D MOT方法！

未来先知

发布于 2024-09-20 14:44:41

610

发布于 2024-09-20 14:44:41

文章被收录于专栏：未来先知

多模态的3D目标跟踪（MOT）通常需要深度神经网络（DNNs）进行大量的计算成本来提取多模态表示。本文，作者提出一个问题：在推理阶段，作者是否可以仅在训练期间从多个模态学习，避免多模态输入？为了回答这个问题，作者提出了一种新颖的几何模型：YOLOO，这是一种新的多模态3D MOT范式。 YOLOO使点云编码器学习一个统一的三角模态表示（UTR），该表示来自点云以及其他模态，如图像和文本线索。利用这个UTR，YOLOO仅使用点云编码器实现高效的跟踪，同时不牺牲其性能，从而从根本上消除了对计算密集型DNNs的需求。具体而言， YOLOO包括两个核心组件：统一的三角模态编码器（UTEnc）和灵活的几何约束（F-GC）模块。UTEnc将点云编码器与预训练的CLIP的图像和文本编码器结合在一起，将点云信息与CLIP中丰富的视觉-文本知识融合到点云编码器中，产生高度判别性的UTR，便于轨迹与检测之间的关联。此外，F-GC模块剔除与相似表示但位置差异显著的不匹配关联。它进一步增强了UTR的鲁棒性，不需要任何场景特定调整，解决了定制几何约束的关键限制（例如，3D IoU）。最后，传统数据关联组件通过生成高质量3D轨迹实现。通过将这些创新整合到一个多模态3D MOT方案中，作者的YOLOO在鲁棒性和效率方面都实现了显著提升。在KITTI和Waymo上的全面实验表明，与20个竞争对手相比，YOLOO的表现更具优势。

I Introduction

3D传感器（如LiDAR和RGB-D相机传感器）的广泛应用导致3D多目标跟踪（MOT）在多个领域得到广泛应用，包括自动驾驶、室内机器人、和无人驾驶飞机等。与2D MOT相比，3D MOT 利用3D空间信息来增强对物理环境的3D理解。

现有的3D MOT方法主要分为两类：单模态和多模态。这两种范式的基础都是精心设计的约束，这些约束有助于将检测结果与轨迹关联起来，从而得到3D轨迹。

单模态3D MOT方法[7, 8, 9, 10]（见图1（a））主要依赖于自定义的几何对准度量（C-GAMs），如BEV Intersection over Union（BEV_IoU）或Centroid Distance（CD），由自定义几何约束（C-GC）模块计算。然而，为了适应不同场景中不同物体类别的变化速度和大小，C-GC必须根据类别和场景自适应地选择和执行合适的几何对准度量，并针对每个类别和场景调整关联阈值。尽管这些方法有效，但它们仍然存在鲁棒性问题，包括频繁的身份切换和跟踪碎片，特别是在具有群集、遮挡或高速运动等挑战性场景中。

鉴于单模态和多模态3D MOT所面临的挑战，作者提出了一个有趣的问题：是否可以在训练过程中让一种模态特定的编码器学习到同时包括其自身模态和其他模态信息的统一的表示？通过这种方式，多模态3D MOT可以只使用在推理过程中具有特定模态的编码器，避免预处理和其他模态的编码、多模态融合，从根本上解决跟踪效率低的问题。

作者介绍了 YOLO0 ，这是一种新颖的多模态3D MOT解决方案，重新定义了传统的多模态范式。如图1（b）所示，YOLO0在训练过程中同时从点云、图像和文本线索中学习，不需要多模态融合。推理仅依赖于点云数据，实现了高效和鲁棒的性能。因此，YOLO0具有与多模态大型语言模型（如ChatGPT-4V和ImageBind[16]）可比的跨模态学习能力。

具体来说，YOLO0包含两个核心组件：一个统一的三角形编码器（UTEnc）和灵活的几何约束（F-GC）模块。UTEnc集成了点云、图像和文本编码器，其中后两者是从预训练的视觉语言模型（VLMs，如CLIP[15]）中改编而来。作者的新统一的三角形对比学习（UTCL）策略同时优化点云编码器与从CLIP中提取的点云数据和丰富的视觉文本表示，同时保持CLIP的参数冻结。这使得点云编码器可以同时学习点云、图像和文本线索（描述物体类别和空间位置信息）的统一三角形表示（UTR），有效地将相同物体的UTR聚集在一起，将不同物体的UTR分开。所产生的UTR相似度为轨迹到检测关联提供了稳健的基础。此外，为了进一步提高UTR的鲁棒性，F-GC在排除语义上类似但几何上不可行的关联的同时，保留了潜在的候选项。这是通过计算一个灵活的几何对齐度量（F-GAM）来实现的，该度量独立于特定的场景条件，量化了BEV视图中物体距离的正常化值。最后，一个传统的数据关联模块将UTR相似度和F-GAM集成在一起，准确地将跨帧的轨迹与检测结果关联，生成高质量的3D轨迹。通过这些创新，YOLO0是一个先驱的多模态3D MOT解决方案，既具有鲁棒性又具有效率。

为什么 YOLO0 有效？ UTEnc使得点云编码器在训练过程中同时从点云、图像和文本线索中学习UTR，而在推理时仅依赖于点云输入。这大大简化了跟踪过程，消除了预处理和编码图像和文本模态以及多模态融合的需要。此外，F-GC也通过排除特定场景的微调，简化了跟踪 Pipeline 。

为什么 YOLO0 稳健？ UTR有效地将点云和预训练CLIP中包含的丰富视觉文本知识相结合，为轨迹到检测关联提供稳健的判别线索。此外，F-GAM通过抑制语义上相似但空间上遥远的物体的虚假关联，增强了关联的可靠性。

作者对YOLO0在KITTI和Waymo跟踪数据集上与二十个竞争者进行了全面评估。作者的结果一致显示YOLO0的优越性能，超过所有竞争对手。作者的贡献有三个方面：

作者提出了YOLO0，一种多模态3D MOT解决方案，在保证高效的同时不牺牲鲁棒性。它具有UTEnc和F-GC模块。 UTEnc从多模态训练方案中学习一个UTR，包括点云、图像和文本线索，但在推理阶段只需要点云数据，从而实现高效且鲁棒的3D MOT。 F-GC计算一个与场景无关的F-GAM，以丢弃语义上相似但几何上不可行的轨迹到检测关联，从而进一步增强UTR的鲁棒性。

II Related Works

3D Multi-object Tracking

随着3D感知技术的进步（例如LiDAR、RGB-D相机和多视角立体相机），为了提高3D多目标跟踪（MOT）的性能，众多研究[17,18,7,8,14]已经进行了努力。这些方法可以广泛地分为单模态和多模态两类。

Ii-A1 Single-modal 3D MOT

单模态方法（详见图1（a）），如AB3DMOT [7]、CenterPoint [8]和SimpleTrack [19]，通常采用自定义的几何对齐度量（如BEV Intersection over Union (BEV_IoU)或Centroid Distance (CD)用于数据关联。尽管这些方法简单且高效，但它们经常遇到健壮性挑战，例如频繁的ID切换和中断的跟踪连续性，特别是在拥挤的环境或高速运动期间。此外，各种场景中的不同物体类别具有不同的运动速度和大小，因此需要为每个特定类别和场景定制C-GAMs和关联阈值。

Ii-A2 Multi-modal 3D MOT

如图1(a)所示，多模态方法（例如mmMOT[14]，JRMOT[11]和FANTrack[13]）已经出现，旨在解决单模态方法缺乏鲁棒性的问题。通过从图像和点云中提取多模态表示，这些方法可以有效地区分空间上接近但视觉上不同的物体，这是C-GAMs的一个局限性。然而，获取多模态表示的过程非常耗时且费力，包括跨模态数据预处理，多个模态特征编码，以及多模态特征融合。特别是在场景中有很多物体的场景中，这种开销更为突出。因此，最近的研究主要集中在修改C-GAMs和不同场景下的关联阈值，而不是探索多模态表示。这一趋势引发了多模态范式在3D MOT领域是否过时或不再具有竞争力的疑问。

作者的YOLOO[图1(b)]通过引入两个新组件：UTEnc和F-GC[20]，重新定义了多模态范式。UTEnc在训练时从点云、图像和文本提示中共同学习一个UTR，而在推理时仅根据点云数据实现从轨迹到检测的关联。为了进一步增强UTR的鲁棒性，F-GC在不需要场景特定微调的情况下，过滤掉不合理的几何关联。

Multi-modal Representation Learning

当前关于多模态表示学习的研究主要集中在两个模态的融合上，最常见的是图像文本和图像点云对。

Ii-B1 Image and Point Cloud

图像点云合成方法在3D视觉任务中得到广泛应用，尤其是在3D目标检测和跟踪方面。这些方法通过结合富含空间几何信息的点云表示和富含详细语义内容的图像表示，来增强场景理解和感知。例如，3D目标检测方法如EP-Net++ [20]和PointSee [21]利用语义丰富的图像来增强点云表示，从而改善了小目标和远程物体的检测效果。此外，3D运动跟踪（MOT）方法，包括mmMOT [14]，JMODT [12]，FANTrack [13]和JRMOT [11]，从图像和点云两种模式中分别提取多模态表示，然后计算这些表示之间的相似度度量，以建立强大的跟踪约束，从而得到更可靠的3D轨迹。然而，随着一帧中物体的数量增加，使用复杂的DNN来捕捉这些表示变得越来越计算密集，这严重影响了跟踪效率。

Ii-B2 Image and Text

预训练VLMs的出现，如CLIP[15]和ChatGPT-4v，极大地加速了基于图像文本方法的发展。这些方法利用图像和文本编码器从图像文本对中提取嵌入，并通过对比学习将它们置于统一的表示空间。这种精简的架构便于在大规模、嘈杂的网页数据集上进行有效的训练，从而显著提升了零样本泛化能力。因此，许多2D检测模型，如F-VLM[22]，DetPro[23]和OVDet[24]，可以无缝实现开放集检测能力，利用这些预训练VLMs的零样本泛化能力。鉴于预训练VLMs中每个模式编码器固有的跨模态表达能力，一个具有吸引力的问题是：是否可以将对比学习引入多模态3D MOT，使每个模式编码器从自身和其他模态同时学习丰富的知识？这种方法仅使用特定模态的编码器就可以实现高效和稳健的性能，从而消除了其他模态的前处理、编码和融合的必要性。然而，这个方向仍然有待探索。

图2：YOLOO概述。为了简单起见，作者只展示了帧到帧之间的跟踪过程。帧提供具有相应UTR的轨迹作为输入，而帧提供检测。帧中的检测经历预处理，包括点云 Patch 裁剪、重新采样至N个点，并将其输入到作者提出的点云编码器（即LGPEnc）在UTR内。帧中的轨迹使用3D卡尔曼滤波器（KF）预测到帧。接下来，来自两个帧的UTR和F-GC的灵活几何对准度量被输入到数据关联模块，以获得轨迹到检测的对齐关联。生命周期管理模块处理轨迹的产生、消亡或关联，与相关轨迹使用3D KF更新。值得注意的是，作者的生命周期管理和3D KF模块与经典的AB3DMOT[7]一致。

作者提出YOLOO，是第一个将预训练VLMs引入3D MOT以增强点云编码的方法。创新的UTCL策略在训练期间将图像和文本编码器的丰富知识注入点云编码器。因此，图像和文本编码器以及多模态融合模块在推理时不再需要，从而提高了 Pipeline 效率。

III Method

Overview

为了实现卓越性能，当前的多模态3D MOT方法通过精心设计的复杂深度神经网络（DNNs）为单模态方法添加了从图像和点云中提取的多模态表示。这些表示与自定义几何校准度量（C-GAMs）结合在一起，以建立强大的跟踪约束。然而，基于DNN的特征提取引入的计算负担显著降低了效率，而C-GAM需要针对特定场景进行严格的微调，这限制了其泛化能力并增加了整个 Pipeline 的复杂性。因此，有必要重新审视传统多模态3D MOT，以（i）简化多模态表示的获取和（ii）开发更灵活的几何校准度量，这样就可以消除针对特定场景的广泛微调的需求。

作者提出YOLOO，这是一个新颖的多模态3D MOT解决方案，重新定义了多模态范式（见图1（b）和图2）。YOLOO由两个核心组件组成：统一的三模态编码器（UTEnc）和灵活的几何约束（F-GC）模块。此外，还包括传统的数据关联（DA），3D卡尔曼滤波（KF）和生命周期管理模块。值得注意的是，UTEnc将点云编码器与图像、文本编码器相结合，这些编码器是基于预训练CLIP[15]的。通过图像、文本线索和点云的联合训练，UTEnc将预训练CLIP中的丰富视觉语言知识传递给点云编码器，从而得到一个统一的三模态表示（UTR），这有助于将轨迹与检测关联起来。这一创新使得在推理过程中仅依赖于点云编码器即可实现高效多模态3D MOT，这在该领域中首次应用预训练视觉语言模型（VLMs）。此外，F-GC计算一个灵活的几何对齐度量（F-GAM），作为与类似表示但位置差异显著的不透明关联的补充过滤器，从而消除了针对特定场景调整关联阈值的需求。此外，DA模块利用UTR相似性和F-GAM在同一帧内有效地关联轨迹和检测，生成高质量的3D轨迹。3D KF和生命周期管理组件与AB3DMOT[7]中使用的相同，因此作者省略了详细描述。

Problem Formulation

在帧，输入的3D检测被称为。在帧之前，输入的3D轨迹被称为，它们通过3D KF向前传播到帧，生成预测的3D轨迹。首先，UTEnc为所有检测提取UTRs（Unified Temporal Representations）。然后，计算和之间的UTR相似度，形成代价矩阵。同时，F-GC计算和之间的F-GAM（Fusion of Gaussian Amplitude Modulation），生成代价矩阵作为辅助约束。利用这两个代价矩阵，DA跨帧关联检测和轨迹，生成高质量的3D轨迹。

Unified Tri-modal Encoder

图1（a）说明了，当前的多模态方法[11, 12, 13, 14]通常使用复杂的DNNs（包括图像和点云编码器以及多模态融合模块），从图像和点云中提取每个物体的多模态表示，从而促进强健的轨迹与检测关联。然而，与复杂的DNNs相关的巨大计算成本严重阻碍了效率。此外，在不同的模态之间对齐和裁剪数据涉及复杂的预处理步骤，这进一步复杂化了整体跟踪 Pipeline 。这两个因素共同限制了多模态范式的开发。

为了解决这个问题，作者提出了一种统一的三角模态编码器（UTEnc，参见图3）。UTEnc是第一个将预训练的CLIP[15]集成到3D MOT领域的方法。UTEnc使得点云编码器可以通过从点云和从CLIP中提取的丰富视觉语言表示共同学习统一点三模态表示（UTR）。具体来说，UTEnc包含三个组件：用于视觉目标的图像编码器、用于描述目标类别和位置信息的文本提示文本编码器，以及用于表示空间点云的空间点云编码器。在这里，图像和文本编码器源自预训练的CLIP，在训练过程中其参数被冻结（见第III-C1部分），而点云编码器是作者提出的局部-全局点云编码器（LGPEnc，见第III-C2部分）。作者的提出的统一三角模态对比学习（UTCL）策略（详细见第III-C3部分）将点云表示与其相应的图像和文本表示对齐到一个统一的表示空间。同时，UTL还通过最大化目标间距离并最小化目标内距离增强了点云表示的判别性。

Iii-C1 Image and Text Encoders

图像编码器处理从每个物体中裁剪并重新缩放的图像块，而文本编码器则处理描述物体类别及其在点云空间中的X-Y平面上的空间位置的文本提示。图像编码器提供丰富的语义信息，而文本编码器则加强类别语义和空间位置引导。两者编码器都生成相应的表示，表示为和。

Iii-C2 LGPEnc

高级点云分析方法，包括PointNet++ [25]和Point Transformer [26]，在处理包含许多物体的复杂场景时，实时应用程序如自动驾驶中的局限性。为了解决这个问题，作者引入了局部-全局点云编码器（LGPEnc），如图4所示。LGPEnc通过集成局部和全局特征来高效捕获复杂的点云特征，构建了一个只包含七个MLP层和两个可学习参数的简化架构。具体来说，每个目标的处理点云，被均匀重采样到N个点，然后生成一个表达式，用

表示，其中是来自第2层和第5层的特征的拼接。和分别是第2层和第5层的特征。和分别表示最大池化和拼接操作。此外，由注意力机制计算的全球特征被应用到特征通道之间的互依赖关系，以捕捉丰富的局部细节，计算如下：

其中，注意力权重是由第2层的特征计算得到的，它衡量了特征的通道和点意义。然后，通过使用可学习参数将全局和局部特征进行加权求和，融合成一个特征向量。接下来，被一个MLP层处理，然后进行L2归一化以获取最终的点云表示，用

表示，其中操作是对L2归一化。

关键的是，利用这些点云表示，可以推导出两个物体之间的UVR相似度，表示为

其中和分别表示当前帧和前一个帧中物体的点云表示。

Iii-C3 Utcl

通过跨模态对比学习进行训练，预训练的多模态大型语言模型如ImageBind [16]和ChatGPT-4v允许每个模态编码器从所有其他模态中学习丰富的知识，从而形成语义丰富的跨模态表示。然而，现有的多模态3D MOT方法[11, 12, 13, 14]通常采用独立编码器为每个模态，每个编码器只能在其相应的单一模态上学习知识。要获得跨模态表示，它们需要将来自不同编码器的表示进行融合。然而，这导致了计算开销，包括多模态数据的预处理和编码以及后续的特征融合，从而极大地降低了效率。

为了解决这个问题，作者提出了一种优化策略（UTL策略）。通过将三模态表示集成到一个统一表示空间，通过跨模态对比学习损失（），点云表示得以丰富，是从图像中提取的详细语义信息，通过文本提示提取的特定类别语义和空间上下文进行提炼。此外，还应用了Triplet Loss()，以增强点云表示在区分目标相似度方面的判别力。因此，点云表示可以作为图像、点云和文本模态的统一三模态表示（UTR）。UTCL损失的正式定义如下：

其中, , 和分别表示 Anchor 物体的图像、文本和点云表示。和分别表示点云代表物和正负目标的点云表示。正目标是从三个 frames 前和后与 Anchor 物体具有相同 ID 的目标中随机选择的目标。负目标是从与 Anchor 目标序列不同的序列中随机选择的序列。和分别分配给损失和。损失的定义如下：

其中。表示批处理大小，而是一个可学习的温度参数。此外，另一个损失的定义如下：

其中表示两个嵌入之间的余弦距离。表示边际。

Flexible Geometric Constraint

尽管UTR具有较强的判别能力，但当表示相似但几何位置显著不同的轨迹时，仍然容易受到错误的轨迹-目标的关联影响。为解决此问题，传统方法[17, 18, 19, 7]通常采用自定义几何约束（C-GC）模块，使用自定义几何对齐指标（C-GAMs）来量化目标 Level 的几何距离。然而，由于不同场景中物体的速度和尺度不同，C-GC需要谨慎设计C-GAMs和为每个场景调整关联阈值。这种启发式驱动的方法在应对新场景时适应性有限，且在困难条件下容易失败（参见图5中的中等和困难情况）。

为解决这一限制，作者引入了一个灵活几何约束（F-GC）模块，以计算一种对类别和场景不变的灵活几何对齐指标（F-GAM），其定义为

其中表示欧几里得距离。和分别表示目标检测在BEV视角的中心和尺寸（长和宽）。类似地，和分别表示预测的轨迹的中心和尺寸。如果超过1，则认为物体不适配；否则，它们是潜在的匹配目标。

为了直观地说明F-GC的优势，图5展示了三个代表性的场景。在简单的场景中，3D IoU和F-GAM都可以准确匹配检测和轨迹。然而，中等场景揭示3D IoU的局限性，因为它根据其高3D IoU值将检测与错误的轨迹关联。相比之下，F-GAM正确地识别了正确的关联关系。在困难的场景中，3D IoU由于其零3D IoU值错误地排除了正确的关联关系，而F-GAM保留了与UTR进一步评估的潜在关联。F-GAM的灵活性源于其独立于自定义几何约束和严格的关联阈值。结合其简单的计算，F-GAM可以有效消除不合理的匹配，同时保留与UTR后续考虑的更广泛的潜在候选轨迹。

Data Association

类似于先前的方法[17, 13, 14, 27, 7]，作者的DA模块直接使用精心设计的约束将相邻帧的轨迹和检测关联起来。具体约束包括UR相似度（见式4）和LGA度量（见式8）。相邻帧之间的代价矩阵计算如下：

其中和分别表示轨迹集合和检测集合中的元素个数。

根据方程9，作者使用贪心算法确定轨迹集合和检测集合之间的关联，输出为帧的高质量3D轨迹。

IV Experiment

Dataset

作者使用流行的KITTI [37]和Waymo [38]跟踪基准测试来评估YOLO的性能。KITTI包括21个训练序列和29个测试序列，分别有8008帧和11095帧。Waymo包括798个训练序列和202个验证序列，每个序列都包含20秒的连续驾驶数据。在KITTI的"Car"和"Pedestrian"类别，以及Waymo的"Car"、"Vehicle"和"Pedestrian"类别中进行的评估，展示了YOLO的鲁棒性和效率。

Evaluation Metrics

作者使用了KITTI官方评估工具包[37]来定量评估我国YOLO在KITTI上的性能。评估采用了CLEAR MOT指标[39]，如多目标跟踪准确率(MOTA)、缩放多目标跟踪准确率(sMOTA)、多目标跟踪精度(MOTP)和ID切换(IDSW)，遵循标准多目标跟踪(MOT)规则。此外，KITTI数据集还融入了HOTA指标[40]，这是一个综合多目标跟踪(MOT)评估指标，它将检测和关联质量集成在一起，进一步细分为检测准确率(DetA)和关联准确率(AssA)等。对于Waymo，MOTA也是主要的评估指标，考虑到每个时间戳的假阳性(FP)、漏检目标(Miss)和身份切换(IDS)。评估性能还被分为两个难度 Level ：LEVEL 1和LEVEL 2。LEVEL 1评估分数超过五分的目标，而LEVEL 2考虑至少有一个分数的目标。在作者的实验中，作者采用了LEVEL 2。

Experimental Setup

YOLOO 是使用 Python 和 PyTorch 开发的，并在配备了 Intel Core i9 3.70GHz CPU，64GB RAM 和 RTX 4090 GPU 的计算机上进行了实验。KITTI 训练集被分成两部分：包含序列 _0000, _0002, 0003, 0004, 0005, 0007, 0009, 0011, 0017, 0020 的训练集，以及包含序列 0001, 0006, 0008, 0010, 0012, 0013, 0014, 0015, 0016, 0018, 0019 的验证集。对于 Waymo，作者使用原始的的数据集划分配置进行训练和评估。

在 KITTI 和 Waymo 数据集上的 UTEnc 模块训练中，作者采用了 250 个周期，学习率为 0.003，并使用 AdamW 优化的器。图像编码器输入为像素 patch，而在训练中，点云编码器处理包含个点的 patch，而在测试中处理包含个点的 patch。文本编码使用固定模板 prompt，如下所示： "_The category of the object is category, and its location can be represented by four coordinates: (, ), (, ), (, ), and (, )_。在这里，这些坐标表示物体在点云的 X-Y 平面上投影的角位置。

此外，为了对 YOLOO 进行全面、公正的评价，作者在多个数据集上使用了一组不同的 3D 目标检测器。具体来说，对于 KITTI 数据集，作者利用 Point-RCNN [41]，Point-GNN [42]，CasA [27] 和 VirConv [28]。在 Waymo 数据集上，作者将 CenterPoint [8] 的 3D 检测结果作为输入数据流，类似于经典的 SimpleTrack [19]。

Main Results

本节讨论了主要结果。

Iv-D1 Quantitative Evaluation on KITTI

通过在KITTI测试集的_Car_类别中进行的全面实验，如表1所示，YOLOO在17个竞争方法中展现出优越性能。

值得注意的是，表1的最后六行显示，作者使用YOLOO在CasA [27]或VirConv [28]的相同3D检测结果作为输入时，始终优于复杂的CasTrack [9]和AB3DMOT [7]等方法，在所有评估指标上的性能。具体来说，当使用CasA的3D检测时，作者的方法在HOTA上的改进为3.00%，在MOTA上的改进为0.87%，在SMOTA上的改进为1.53%，同时ID切换减少了39。与CasTrack相比，作者的方法在HOTA上的改进为1.40%，在MOTA上的改进为1.47%，在sMOTA上的改进为1.61%，并且ID切换减少了101。同样，在VirConv的3D检测下，作者的方法相对于AB3DMOT在HOTA上的改进为4.49%，在MOTA上的改进为1.30%，在sMOTA上的改进为1.51%，并且ID切换减少了44。与CasTrack相比，作者的方法在HOTA上的改进为1.05%，在MOTA上的改进为1.12%，在sMOTA上的改进为1.41%，ID切换减少了142。此外，YOLOO的推理速度超过200 FPS，与使用复杂GIoU_3D [43]约束的AB3DMOT相当，远远超过实时要求（超过25 FPS）。虽然与仅依赖中心点距离和预测值的CasTrack略有 slower，但通过集成点云数据获得的大量鲁棒性改进，可以证明这种折衷是值得的。这些结果共同强调YOLOO在效率和鲁棒性方面的最先进性能。

Iv-D2 Quantitative Evaluation on Waymo

为了全面评估YOLOO的泛化能力，作者在更具挑战性的Waymo跟踪数据集上进行了额外的实验（如表2所示）。作者对经典3D MOT方法：AB3DMOT [7]，Prob3DMOT [44]，CenterPoint [8]，SimpleTrack [19]进行了对比。为了进行公平的对比，所有方法都使用CenterPoint的3D检测作为输入。实验结果表明，作者的方法在所有指标和类别上都显著优于AB3DMOT，Prob3DMOT和CenterPoint。与SimpleTrack相比，作者的方法表现出强大的竞争力，推理速度快40倍以上（80 FPS与2 FPS），特别是在_Cyclist_类别（MOTA 59.5% vs. 56.9%）。与SimpleTrack不同，作者的方法没有依赖精心设计的定制几何约束、微调关联阈值和复杂的跟踪机制，就能实现优越的性能。此外，YOLOO在所有三个类别中的IDS评分上始终表现出最佳性能。这些发现强调了作者的方法在通过UTEnc的UTR相似度以及由F-GC计算的F-GAM均衡稳健性和效率的有效性。

Iv-D3 Qualitative Evaluation

为了补充定量分析，作者对KITTI验证集进行了定性评估。图6展示了经典AB3DMOT [7]与作者YOLOO在序列0016上的对比，使用Point-RCNN [41]的3D检测作为输入。作者的方法在生成更稳健、更准确轨迹的同时，有效地抑制了假性轨迹，特别是那些源自错误检测的假性轨迹。

Ablation Study

要评估YOLOO的核心组件UTEnc和F-GC的有效性，作者在遵循KITTI官方评估协议的KITTI验证集上进行UTEnc和F-GC的消融研究。由于YOLOO采用了检测跟踪范式，输入3D检测的质量会显著影响跟踪性能。为了评估这种影响，作者在KITTI验证集上进行了使用不同3D检测器的实验。

Iv-E1 Effects of UTEnc

根据提出的UTCL策略，点云编码器在训练过程中同时学习点云信息以及由图像和文本线索所推导出的视觉-文本知识。为了评估点云、图像和文本提示对3D MOT性能的个体贡献，表格III呈现了一个消融研究。结果表明，每个模态都能提升3D MOT性能。仅利用点云数据时，在_Car_和_Pedestrian_类别下的HOTA分数分别为71.29%和41.28%。当分别集成图像模态和文本模态时，_Car_的HOTA分数分别提高了3.71%和3.04%，而_Pedestrian_的HOTA分数分别提高了0.90%和0.84%。所有模态结合时，最优性能实现，_Car_和_Pedestrian_类别下的HOTA分数分别为75.84%和44.05%。

Iv-E2 Effects of F-GC

从表3的最后三行可以看出，提出的F-GC和传统的C-GC的有效性以及它们之间的优势非常明显。请注意，对于C-GC，作者使用了匹配阈值为0的BEV_IoU。C-GC进一步提高了HOTA的0.79%和1.07%，分别针对_Car_和_Pedestrian_类别，而F-GC则分别为相同类别的HOTA提高了0.79%和2.02%。尽管F-GC在_Car_类别上与C-GC的表现相当，但在_Pedestrian_类别上显示出了显著的优势（HOTA：46.07% vs. 45.12%）。这些结果表明，UTEnc在区分外观相似但位置较远的物体时，尤其是在非刚性行人方面，面临着准确的识别挑战。与C-GC相比，F-GC为UTEnc提供了更强大、更互补的约束条件，具有更灵活、更简单的计算，为未来的进一步发展奠定了坚实的基础。

Iv-B3 Effects of the 3D object detector

如图4所示，YOLOO选择了三种3D目标检测器（包括PointRCNN [41]，PointGNN [42]，CasA [27]，VirConv [28]等）显著影响了YOLOO的3D MOT性能。作者的结果表明，更先进的3D检测器导致更好的3D MOT结果。例如，采用最先进的多模态3D检测器VirConv将YOLOO提升至HOTA的85.63%，MOTA的91.35%，和sMOTA的83.74%，相比 earlier 的3D检测器Point-RCNN在HOTA上有显著的9.00%提升。此外，YOLOO在不同的3D检测器上表现出低的IDSW，突显其鲁棒性和维持稳定跟踪性能的能力。YOLOO的模块化设计使得高级3D检测器可以无缝集成。

然而，YOLOO也存在一些限制。首先，尽管YOLOO在处理输入3D检测时表现强大，但其仍然受到底层3D检测器的限制。如图7所示，输入数据中的遗漏检测直接影响输出轨迹的准确性。其次，尽管UTEnc有效地从多种模式中学习健壮的统一表示，但它仍然容易在不同空间位置的视觉相似物体之间产生混淆，因此需要辅助约束F-GC。第三，UTEnc内的点云编码在处理KITTI和Waymo等数据集使用64束激光雷达收集的密集点云时表现出色，但它在处理稀疏点云时却力不从心。例如，使用32束激光雷达收集的nuScenes数据集往往提供稀疏点云表示，尤其是对于远离物体的表示，只能由1个或2个点来表示（参见图8）。鉴于这些局限性，作者的持续努力致力于开发高效而鲁棒的跨模态3D MOT解决方案。