
复杂场景下的多目标跟踪(如协调舞蹈表演、团队体育或动态动物群)面临着独特的挑战。在这些场景中,物体经常以协调的模式移动,互相遮挡,并在其轨迹中表现出长期依赖性。 然而,如何在每个跟踪片段内建模长程依赖性,以及跟踪片段之间的相互依赖性和相关的时间遮挡仍是一个关键的开放性研究问题。 为此,作者提出了Samba,这是一个旨在通过同步用于每个跟踪片段的多个选择状态空间来联合处理多个跟踪片段的新颖线性时间序列模型。Samba自回归地预测每个序列的未来跟踪 Query ,同时保持跟踪片段之间的同步长期记忆表示。 通过将Samba集成到跟踪传播框架中,作者提出SambaMOTR,这是第一个有效解决上述问题的跟踪器,包括长程依赖性、跟踪片段之间的相互依赖性和时间遮挡。 此外,作者引入了一种有效的处理不确定观测(MaskObs)的技术和一种高效的训练配方,以将SambaMOTR扩展到更长的序列。 通过建模跟踪物体的长程依赖性和相互作用,SambaMOTR隐式地学习在没有任何手工设计启发式的情况下准确跟踪物体通过遮挡。 作者的方法在DanceTrack、BFT和SportsMOT数据集上显著超越了先前的最先进水平。
多个目标跟踪(MOT)涉及在视频流中检测多个目标,同时跟踪单个实例的变化。这对诸如体育分析、自主导航和媒体制作等许多下游任务至关重要(Luo等人,2021年)。传统上,MOT方法在相对简单的设置上进行验证,如监控数据集,其中行人展示出较大的线性运动和多样化的外观,很少以复杂的方式相互交互。然而,在像团队运动、舞蹈表演或动物群体这样的动态环境中,物体经常以协调的模式移动,互相遮挡,并在其轨迹中表现出非线性运动和长期依赖性(图1)。在这些设置中,目标之间的长期相互依赖性建模,其中它们的运动通常同步或受彼此影响,仍是一个开放性问题,目前的方法无法解决。

当前的基于检测的跟踪方法通常依赖于启发式模型的Kalman滤波器来独立地建模物体的轨迹并预测其未来位置。然而,这些方法在处理物体的动力学(如运动、外观和姿态变化)的非线性方面存在困难。
跟踪传播提供了一种替代方法,将跟踪建模为端到端的自动回归目标检测问题,利用检测 Transformer 在时间上传播跟踪 Query 。他们的灵活设计使得在具有复杂运动、姿态和外观模式的环境中;体育;鸟类跟踪数据集中)获得了有前景的性能。
然而,这些方法仅在相邻帧之间传播时间信息,未能考虑长时间依赖性。MeMOTR 试图解决这个问题,通过外部启发式记忆存储时间信息。然而,它使用指数移动平均(EMA)来压缩过去的历史,导致时间记忆表示不理想,因为它丢弃了对于长时间跟踪至关重要的细粒度长时间依赖关系。
此外,通过独立处理每个跟踪器并忽略跟踪器之间的交互,当前方法在遮挡情况下无法准确建模物体的行为,只能依赖简单的启发式方法来处理这些情况:一些在遮挡期间冻结跟踪器 Query ,仅依赖其长时间的观察状态;
另一些(Zeng等人,2022年)将遮挡管理委托给传播模块,但该模块仅在相邻帧之间传播信息,并未考虑历史信息,因此无法估计准确的跟踪轨迹。作者认为,有效的长期记忆和交互建模允许在复杂环境中更准确地推理被遮挡物体的行为,例如团队运动或舞蹈表演,通过利用过去的信息并理解联合运动模式。
为了解决这些问题,作者提出了Samba 1,这是一个新的线性时间序列模型,可以同时处理一组序列,并将它们的过去压缩成同步的长程记忆表示,捕捉集合内的相互依赖性。Samba采用自Mamba(Gu和Dao,2023)选择的SSM来独立建模所有tracklets,并将它们的长期历史压缩成隐藏状态。
然后,作者提出在每个时间步将这些记忆表示同步到tracklets上,以考虑相互依赖性(例如tracklets之间的相互作用)。作者通过在所有序列的隐藏状态之间使用自注意力机制(Vaswani等人,2017)实现同步,允许tracklets交换信息。这种方法在数据集中物体以协调模式运动(表1至3)的数据集上证明有益。结果的序列集合模型Samba保留了SSM的线性时间复杂度,同时建模了tracklets的联合动力学。

通过将Samba集成到跟踪传播框架(Zeng等人,2022年)中,作者提出了SambaMORR,这是一个端到端的多个目标跟踪器,可以建模目标跟踪lets之间的长程依赖关系和相互作用,以处理复杂运动模式和遮挡以原则化方式。SambaMORR通过使用基于Samba的新颖 Query 传播模块与基于 Transformer 的目标检测器相结合,同时考虑了单个跟踪lets的历史及其与下一个跟踪 Query 的相互作用。
此外,一些 Query 由于遮挡或复杂场景导致检测结果不确定(见图2,遮挡)。为了防止这些检测结果影响记忆表示并累积 Query 传播过程中的错误,作者提出了MaskObs。MaskObs在更新相应的隐藏状态和跟踪 Query 的同时,只使用其跟踪lets和与确信跟踪目标之间的交互来确定可靠的观察值,从而防止不可靠的观察值进入 Query 传播模块。与之前的方法在遮挡期间冻结跟踪 Query 不同,MaskObs利用时间和空间上下文(即过去的行为和与其他跟踪lets之间的相互依赖关系)更准确地预测目标的的未来状态。因此,SambaMORR在遮挡期间更有效地跟踪目标。


最后,作者提出了一种高效的训练配方,通过采样任意长度的序列,计算跟踪结果,并在最后五帧上应用梯度,将SambaMOTR扩展到更长的序列。这种简单的策略使作者能够学习 Query 传播的更长范围依赖性,同时保持了与先前方法相同的全GPU内存需求。
作者在DanceTrack、SportsMOT 和 BFT 数据集上验证了SambaMOTR。由于作者的贡献,作者在所有数据集上都建立了新的最先进水平。作者总结如下:
(a) 作者提出了Samba,这是一种基于同步SSMs的新颖线性时间序列模型;
(b) 作者提出了SambaMOTR,这是一种首次以原则性方式利用过去tracklet历史来学习长程依赖性、tracklets交互和遮挡处理的跟踪方法;
(c) 作者提出了MaskObs,这是一种处理SSMs中不确定观测的简单技术,以及一种高效训练配方,可让您在有限计算资源下学习更强大的序列模型。
跟踪检测(Tracking-by-detection)是运动目标跟踪(MOT)领域的一种流行范式,包括一个目标检测阶段,随后进行数据关联以产生物体轨迹,整个视频。运动和外观线索通常用于通过人工设计的启发式匹配检测到跟踪lets。基于运动的跟踪器SORT 使用交点与 Union(IoU)来将卡尔曼滤波器预测的跟踪lets位置分配到目标检测。ByteTrack 引入了一个两阶段的匹配方案,将低置信度的检测与关联。OC-SORT通过在遮挡下处理噪声累积来建模非线性运动。或者,可以单独使用外观描述符或与运动结合来根据相似度度量将检测与跟踪lets匹配。由于两个阶段的解耦性质,跟踪检测方法历史上利用最先进的目标检测器来解决MOT挑战。然而,通过依赖人工设计的启发式,这些方法在处理非线性运动和外观模式时存在困难,并且需要特定的领域特定超参数。
近年来,基于 Transformer 的追踪传播。最近的工作提出了一种更灵活且端到端可训练的追踪传播设计,该设计将目标检测和 Query 传播紧密耦合,将MOT视为一个自回归问题。利用基于 Transformer 的Deformable DETR 目标检测器,TrackFormer 和 MOTR (Zeng et al., 2022) 分别通过时间传播检测 Query ,以在连续帧中重新检测(追踪)相同目标。
MOTRv2 利用预训练的YOLOX目标检测器为Deformable DETR提供 Anchor 点,从而提高检测性能。然而,这些方法仅在相邻帧之间传播 Query ,未能充分利用历史信息。MeMOTR 首先尝试利用追踪传播中的时间信息,通过时间交互模块聚合长程(一个追踪单元的 Query 的EMA)和短期记忆(最后两个观测帧中检测 Query 的融合)。
通过使用EMA并冻结被遮挡的 Query 和内存的最后观测状态,MeMOTR不能准确估计遮挡处的跟踪 Query 轨迹。最后,通过为每个跟踪单元独立建模 Query 传播,它没有建模跟踪单元之间的交互。
相比之下,作者提出的Samba set-of-sequences模型依赖于单个SSM独立地建模每个跟踪单元作为一个序列,并使一组跟踪单元的内存表示同步,从而实现跟踪单元之间的交互。配备了Samba的SambaMOTR自动预测未来 Query ,同时考虑长程动态和其他跟踪单元的运动和外观。
在介绍SambaMOTR(第4节)之前,作者先介绍选择性状态空间模型(第3.1节)和传播跟踪(第3.2节)所必需的背景和符号。
受到经典状态空间模型(SSMs)的启发,结构化状态空间模型(S4)(Gu等人,2021)引入了一种序列模型,其计算复杂度随序列长度线性增长,而不是平方增长。这使得S4成为了一种原则上是高效且实用的替代 Transformer (Vaswani等人,2017)的方法。通过进一步引入一种选择机制 - 即使SSM参数输入相关 Mamba(Gu和Dao,2023)可以模拟时间变化的系统,从而在性能上弥补了与 Transformer 的差距。
作者正式定义选择性SSMs(S6)(Gu和Dao,2023)。令表示时间的输入信号,表示隐藏状态,表示输出信号。给定系统,控制和输出矩阵,作者定义如方程(1)所示的连续线性时变SSM。通过离散化规则,可以得到定义的SSM的离散时间等效系统(方程(2))。
所选的离散化规则通常为零阶保持(ZOH)模型:

, , 分别是在输入信号 、隐藏状态 和输出信号 在时间 处的观测值。在 S4 中,学习了一个线性时不变(LTI)系统,其中 , , 和 。
而在 S6 中,通过使 , 和 依赖于输入 ,引入了选择性来学习一个时间变化的系统。具体地,, , ,其中 ,而 , , 是可学习的线性映射。
在本文中,作者提出将跟踪传播(tracking-by-propagation)视为序列建模问题。给定特定tracklet的历史跟踪 Query 的离散序列,作者的 Query 传播模块Samba(第4.2节)利用SSM以原则性方式考虑历史tracklet信息。通过递归地将所有tracklet历史压缩为长期记忆,Samba的复杂性随着帧数线性扩展,使得在处理长序列时可以进行高效的训练,同时在推理时可以处理无限长的tracklet。
跟踪传播方法在时间步 之间在检测阶段和传播阶段之间交替,依赖于类似 DETR(Carion 等,2020 年)的 Transformer 目标检测器和 Query 传播模块。在时间 时刻, Backbone 网络和 Transformer 编码器为帧 提取图像特征。检测阶段涉及将固定长度的可学习检测 Query 输入到 Transformer 解码器以检测新生目标,以及将可变长度的传播跟踪 Query 输入到 Transformer 解码器以重新检测跟踪目标。在时间 时刻,跟踪 Query 集为空,即 。检测和跟踪 Query 在解码器中与图像特征相互作用,生成相应的输出嵌入 和边界框预测 . 作者表示与新生目标对应的嵌入集为 ,并将 表示为在时间 活动于的跟踪lets 的嵌入集。在传播阶段, Query 传播模块 通常将嵌入集 作为输入,输出下一帧中相应目标的重新检测 Query 。
尽管之前的工作未能正确建模长期历史和跟踪let交互(Zeng等人,2022;
高和王者,2023;梅因哈特等人,2022),并且由于场景中的多个物体通常会同步移动(图1),作者认为可以通过(1)考虑物体的历史位置和外观,以及(2)估计它们之间的交互,更好地预测场景中物体的未来状态。在本工作中,作者将 Query 传播建模为一组序列化问题。给定一组多个跟踪let,作者使用状态空间模型在每个跟踪let的历史位置和外观中编码其历史,并提出记忆同步来考虑它们的联合动力学。
在本节中,作者介绍了SambaMOTR,这是一个端到端的多目标跟踪器,将基于 Transformer 的目标检测与作者的序列模型Samba相结合,共同建模每个跟踪器的长时间历史以及跨跟踪器之间的交互,以传播 Query 。
首先,在3.2节中,作者提供了跟踪传播框架的背景,并激发了对同时建模时间信息和跟踪器交互的需求更好的需求。
然后,作者描述了SambaMOTR架构(4.1节),并介绍了作者基于同步状态空间的一组序列模型Samba,它共同建模一组序列的时空动态及其相互依赖性。
最后,在4.3节中,作者描述了基于Samba的SambaMOTR Query 传播策略,作者的有效技术MaskObs处理SSM中的遮挡,一种学习有限计算下的长序列模型的配方,以及作者的简单推理 Pipeline 。
类似于其他跟踪通过传播的方法(Meinhardt等人,2022年;Zeng等人,2022年;Gao和Wang,2023年),所提出的SambaMOTR架构(图2)包括一个类似于DETR的目标检测器和一个 Query 传播模块。作为目标检测器,作者使用Deformable-DETR(Zhu等人,2020年)后接ResNet-50(He等人,2016年) Backbone 网络,然后是一个transformer编码器来提取图像特征,以及一个transformer解码器来从一组检测和跟踪 Query 中检测边界框。作为 Query 传播模块,作者使用作者的一组序列模型Samba。
每个序列都由一个与所有其他序列同步的Samba单元处理。一个Samba单元包括两个与LayerNorm 和残差连接交替的Samba块(参见第4.2节)。
集合序列建模涉及同时建模一系列时间序列及其之间的相互依赖关系。在MOT中,集合序列模型可以捕捉到每个tracklet内的长时间序列关系,以及跨tracklet的复杂交互。为此,作者引入了Samba,这是一个基于多个状态空间模型同步的线性时间集合序列模型。在本文中,作者利用Samba作为一组 Query 传播网络,共同建模多个tracklet及其交互,在一个跟踪传播框架中。
同步选择性状态空间模型。 令表示来自一组序列中的第个输入序列在时间的离散观测值。作者选择选择性状态空间模型(Gu & Dao,2023)来通过一个隐藏状态(等式(3a))来建模每个序列,但作者的方法适用于任何其他状态空间模型。给定记忆,作者定义一个长期记忆更新(LTMU)函数,该函数根据当前观测值更新,从而得到更新的记忆。作者提出一个记忆同步(MS)函数,该函数根据一组同步隐藏状态来生成个序列之间的交互(等式(3b))。
理想的记忆同步函数应具有灵活的输入数量(隐藏状态)和顺序不变的特性。因此,作者提出将记忆同步函数定义为一组具有多头自注意力(MHSA)的堆叠块,之后接一个 FFN (FFN)。如图3所示,作者提出了一种同步状态空间模型层。

Query 传播与Samba。如第3.2节所述, Query 传播模块作为输入接收解码器输出嵌入,并输出精化的跟踪器 Query 。SambaMOTR通过考虑时间信息和跟踪器之间的交互,扩展了这一范式。具体而言,作者使用Samba模块将每个跟踪器的history压缩到一个隐藏状态,并在跟踪器之间同步,从而推导出同步内存。请注意,对于新目标,。在时间时,作者首先用位置信息丰富检测器输出嵌入,通过将它们与相应的边界框坐标相加,使用正弦余弦位置编码,以隐式地建模目标运动和外观,得到输入观察集。
给定输入观察集和时间时所有跟踪器集合的过去同步隐藏状态,将其输入到Samba,以获得输出嵌入和更新后的同步隐藏状态。最后,作者使用输出嵌入和可学习的映射来预测到过去跟踪器 Query 的残差,并生成新的跟踪器 Query ,即。
通过在时间上递归展开此过程,SambaMOTR可以跟踪多个目标,同时将无限长的跟踪器history压缩到其长期记忆表示中,有效地模拟目标运动和外观变化以及跟踪器之间的交互。
MaskObs: 处理不确定的观测值。 追踪-传播算法可能会偶尔处理被遮挡的目标或不确定检测。给定一个函数 来估计输入观测值 的预测置信度,作者提出了一种名为MaskObs的策略来处理不确定观测。MaskObs将不确定观测从状态更新(方程(4))中抹去,从而仅基于其历史和与其他序列的相互依赖来定义系统动力学:

[1] 是一个指示函数,而 是置信阈值,例如 。作者在工作中将 实现为相应边界框 的预测置信度 。在作者的工作中,这种设计选择使作者能够更好地模拟遮挡下的 Query 传播(表4,第 b 行)。
高效学习长序列模型。先前的MOTR类似方法是端到端地在一系列随机间隔采样的5连续帧上进行训练。尽管SambaMOTR的set-of-sequences模型Samba在推理时对长序列表现出令人印象深刻的一般化性能(表4,行c),但作者提出在更长序列上进行训练(即10帧)并仅对最后5帧应用梯度(表4,行d)。作者假设这种策略使作者能够在序列中的后期观察中学习更好的历史压缩,从而在训练时使用相似的GPU内存需求下实现更好的跟踪性能。作者提出的训练方案 Proposal 的示意图如图B所示。
在给定的时间步处,作者将可学习的检测 Query 和跟踪 Query ()输入到 Transformer 解码器中,以产生检测嵌入和跟踪嵌入以及相应的边界框。每个具有高于阈值的检测框将初始化一个新生的跟踪。然后,作者将新生的嵌入、跟踪目标以及跟踪记忆一起传播,以生成更新的跟踪 Query 和同步内存。为了处理遮挡和丢失的目标,作者考虑单个跟踪 Query 在时刻的边界框置信度低于时,该 Query 被视为无效。如果一个跟踪 Query 在帧以上无效,则认为该 Query 丢失并删除。
不同于MeMOTR (高 & 王, 2023),作者的方法在任意时间步t上,对于检测概率较低的物体不更新跟踪嵌入和长期记忆。相反,作者采用了一种基于原则的 Query 传播方案,可以通过依赖其过去历史或关注其他轨迹来在遮挡下生成可能的跟踪 Query 轨迹。因此,只要不被认为是丢失的,作者总是更新任何跟踪let的记忆和跟踪 Query ,即使被遮挡。
在本节中,作者提出了实验结果来验证SambaMOTR。作者描述了作者的评估协议(第5.1节),并报告了实现细节(第5.2节)。
然后,作者将SambaMOTR与以前的最先进方法进行了比较(第5.3节),并在方法组件上进行了消融研究(第5.4节)。作者还在附录中提供了更多的消融实验。
定性结果可以在图1和匿名项目页面https://anonymous-samba.github.io/中找到。
数据集 为了评估SambaMOTR,作者选择了具有高度非线性运动、频繁遮挡和统一外观的多种具有挑战性的数据集。所有数据集都包含物体同步运动的情景。因此,它们是评估跟踪粒度交互重要性的合适基准。DanceTrack(Sun等人,2022)是一个由100个多人舞蹈视频组成的多人跟踪数据集。Bird Flock Tracking(Zheng等人,2024)数据集包括来自BBC纪录片系列Earth-flight(Downer & Tennant,2011)的106个片段。SportsMOT(Cui等人,2023)包含来自篮球、排球和足球场景的240个视频序列。
由于MOT17(Milan等人,2016)的高度线性运动,其小尺寸(只有7个视频)以及后续在额外检测数据集上进行训练的需要,端到端跟踪方法在基于卡尔曼滤波的更简单的方法上没有提供额外的优势。作者在附录中报告了其结果。
评价指标遵循先前的研究,作者使用 HOTA(Luiten 等人,2021 年)指标来衡量整体跟踪性能,并解耦检测精度(DetA)和关联精度(AssA)。作者报告了 MOTA(Bernardin 和 Stiefelhagen,2008 年)和 IDF1(Ristani 等人,2016 年)指标以保持完整性。由于作者的目标是提高关联性能和整体跟踪质量,因此 HOTA 和 AssA 是最能代表这两个指标的。
参考先前的研究(高和王,2023年;张等人,2023年),作者在数据增强中应用了随机缩放、随机裁剪和光度增强。输入图像较短的一边被重新缩放到800,同时最大尺寸被限制在1536。为了与先前的研究(孙等人,2020年;曾等人,2022年;高和王,2023年)进行公平比较,作者使用了变形DETR(朱等人,2020年)目标检测器,并使用ResNet-50(何等人,2016年)和从COCO(林等人,2014年)预训练权重初始化。与MeMOTR(高和王,2023年)类似,作者在一个解码层后注入跟踪 Query 。作者在8个NVIDIA RTX 4090 GPU上运行实验,每个GPU的批处理大小为1。
每个批处理元素包含一个包含10帧的短视频,作者只在最后5帧上计算和反向传播梯度。作者在每个剪辑的1到10之间的随机间隔上均匀地采样帧。作者使用AdamW优化器(Loshchilov和Hutter,2017年)具有初始学习率。为了简单起见,。在DanceTrack(孙等人,2022年),作者在训练集上训练SambaMOTR 15个周期,并在第10个周期将学习率降低10倍。在BFT(孙等人,2022年),作者训练了20个周期,并在第10个周期后降低学习率。在SportsMOT(崔等人,2023年),作者在18个周期上训练,并在第8和12个周期后降低学习率。SambaMOTR的推理在单个NVIDIA RTX 4090 GPU上以16 FPS运行。
作者在DanceTrack(Tab.1)、BFT(Tab.2)和SportsMOT(Tab.3)数据集上比较了SambaMOTR与多个基于检测的跟踪(Tracking-by-Detection)和基于传播的跟踪(Tracking-by-Propagation)方法。所有方法都是在没有使用额外数据集的情况下进行训练的。
由于跟踪器使用各种具有不同 Baseline 性能的目标检测器,作者报告了每个方法使用的检测器。为了公平比较,作者报告了使用Deformable DETR(Zhu等人,2020)的传播跟踪方法的表现, Token 为粗体中的最佳。作者提出了总体最佳结果。基于检测的方法通常使用更强的YOLOX-X(Ge等人,2021),但基于传播的方法始终优于它们,SambaMOTR在所有数据集上实现了最高的HOTA和AssA。
舞动追踪。高不规则动作和密集场景,以及频繁的遮挡和均匀的外观,历史上使舞动追踪对检测跟踪方法具有挑战性。尽管在采用强大的目标检测器YOLOX-X(Ge等人,2021年)时,跟踪传播方法具有更高的DetA(检测精度),但它们在跟踪传播上仍然显著优于它们(参见MeMOTR(高和 Wang,2023)和SambaMOTR)。SambaMOTR在最强竞争对手MeMOTR上创造了新的最先进水平,实现了+3.8 HOTA和+5.2 AssA的改进。作者的方法之所以能够实现这种性能提升,归功于其对历史信息的更好建模,通过遮挡学习准确序列模型,以及跟踪lets(群舞者同步移动)的建模。
鸟群具有相似的外观和非线性运动。因此,在跟踪检测方法中,OC-SORT效果最佳。然而,鸟群是同步移动的,跟踪lets之间的相互作用是建模联合物体运动的重要线索。得益于作者提出的序列模型同步,SambaMOTR在整体上实现了+2.8 HOTA和+4.9 AssA的提高,超过了最佳竞争对手OC-SORT,以及相对于先前的跟踪传播方法TrackFormer(Meinhardt等人,2022)实现了+6.3 HOTA和+12.5的显著提升。
体育场景通常呈现非线性运动模式,这些模式对卡尔曼滤波器来说难以建模,这就是张等人(2022年)的ByteTrack表现不佳的原因。因此,采用非线性运动建模的跟踪器要么明确地(OC-SORT(Cao等人,2023年))要么隐式地(TransTrack(Sun等人,2020年))都能取得良好的性能。
值得注意的是,作者的传播跟踪SambaMOTR能够隐式地联合建模运动、外观和跟踪器交互,尽管作者的变形DETR检测器的DetA与作者OC-SORT的YOLOX-X相比较低,但SambaMOTR在HOTA(总体性能)方面仍取得了最佳结果(69.8),超过了许多传播跟踪方法。此外,SambaMOTR的AssA显著高于最佳传播跟踪方法,并超过了OC-SORT。
作者在表格4中分析了作者的方法中每个组件的影响,详细内容见第4节,图B进行了说明。此外,附录C中还呈现了其他深入的消融实验。
SSM。 段(a)显示了顺序表示对于跟踪的优势。作者使用如Mamba等基础的顺序模型作为 Query 传播的基准,建立了一个强大的基础,该基础优于MeMOTR的基于EMA的历史和时间注意力模块。
MaskObs 在遮挡期间处理跟踪 Query (第3行)与MaskObs相结合 - 它通过遮挡状态更新来消除不确定的观测,并依赖长期记忆和与可见跟踪lets的交互 - 可显著提高总体性能(+1.3 HOTA),突显了管理遮挡物体的有效性。
同步。通过作者的同步机制(第c行),使tracklets相互感知,在所有指标上提高了1%以上,这表明通过捕获tracklets之间的联合动力学与协调运动,建模tracklets之间的互动可以提高跟踪精度。
长期序列训练。在训练过程中有效引入较长的序列(第d行),有助于模型充分利用其长期记忆,使其能够无限扩展到无穷长的序列,从而在AssA方面取得了显著的+1.9改进。
作者的最终 Query 传播方法(第d行)将MeMOTR的关联准确性提高了5.2%(第f行),并将MOTR的提高了惊人的17.3%(第e行)。
遵循跟踪传播范式,作者的模型将超过N_{miss}帧的无活性tracklets丢弃,以降低ID切换的风险。然而,在某些数据集(如SportsMOT,见Cui等人,2023)中,例如足球运动员可能会在摄像机视图中消失数秒,从而生存过N_{miss}阈值。
作者认为未来的工作应该在跟踪传播的基础上与长期重识别相结合,以解决这一问题。此外,在本论文中,作者引入了Samba,一套序列模型。作者的消融研究(见表4)表明,Samba显著优于已经强大的SSM Baseline 。然而,这需要增加计算复杂度的权衡。
特别是,SSM在时间上具有线性复杂度,在序列(tracklets)的数量上也具有线性复杂度。Samba保留了时间复杂度,因此可以跟踪无限长时间,但由于在记忆同步中使用自注意力,序列数量具有二次复杂度。作者的消融研究显示,这种权衡值得性能提升。
提出的SambaMOTR充分利用了跟踪任务的时间顺序性,使用作者的一组序列模型Samba作为 Query 传播模块,共同建模每个tracklet的时间历史及其相互作用。
产生的tracker在线性时间内运行,可以跟踪无穷长序列中的目标。
与先前的方法相比,SambaMOTR在所有基准测试中都取得了显著的改进,在关联准确性方面取得了很大的提高。