前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >YOLO11-JDE:利用自监督再识别技术实现快速准确的多目标跟踪

YOLO11-JDE:利用自监督再识别技术实现快速准确的多目标跟踪

原创
作者头像
CoovallyAIHub
发布2025-02-17 16:05:11
发布2025-02-17 16:05:11
1250
举报

摘要

YOLO11-JDE,它是一种快速准确的多目标跟踪(MOT)解决方案,将实时目标检测与自监督再识别(Re-ID)相结合。通过在YOLO11s中加入专门的再识别分支,该模型可以执行联合检测和嵌入(JDE),为每次检测生成外观特征。再识别分支在完全自我监督的情况下进行训练,同时进行检测训练,从而消除了对昂贵的身份标记数据集的需求。三重损失采用硬正向和半硬负向最小化策略,用于学习鉴别性嵌入。数据关联通过定制的跟踪实现得到了增强,成功地整合了运动、外观和位置线索。YOLO11-JDE在MOT17和MOT20基准测试中取得了具有竞争力的结果,在FPS方面超过了现有的JDE方法,使用的参数也减少了10倍。因此,该方法在实际应用中是一个极具吸引力的解决方案。


论文信息

论文题目:YOLO11-JDE: Fast and Accurate Multi-Object Tracking with Self-Supervised Re-ID 论文链接:https://arxiv.org/pdf/2501.13710


引言

多目标跟踪(MOT)是计算机视觉中的一项基本任务,涉及检测视频序列中的多个物体,并在各帧中保持对其身份的判别。从自动驾驶和视频监控到体育分析和机器人技术,多目标跟踪是现实世界众多应用的关键组成部分。尽管该领域取得了长足进步,但诸如频繁遮挡、复杂和不可预测的运动模式以及实际场景中对实时性能的需求等因素依然严峻。

传统上,MOT系统依赖于广泛使用的“检测跟踪”(TbD)范式,该范式将对象检测和跟踪分为不同的过程。虽然这些方法很有效,但它们通常缺乏真实场景所需的效率和可扩展性,尤其是在拥挤或动态环境中。进入YOLO11-JDE,这是一个改变游戏规则的框架,它使用联合检测和嵌入(JDE)将检测和重新识别(Re-ID)合并为一个简化的模型。结果如何?超快速、准确且参数高效的MOT解决方案。

在这项工作中,提出了一个端到端框架,该框架基于流行的Ultralytics框架和最先进的检测器YOLO11,并进行了修改,以实现联合检测和嵌入。为了解决联合训练中的固有难题,探索了深度度量学习领域,旨在通过使用成熟的三重损失(triplet loss),在检测和嵌入目标之间实现最佳平衡。此外,为了减少对大量身份标签监督的需求,利用了强大的数据增强技术,特别是Mosaic数据增强技术,使模型能够在完全自我监督的环境中有效地运行。与现有的JDE方法相比,该方法大大减少了参数数量,从而显著提高了每秒帧数(FPS)。在MOT Chal- lenge基准测试中,YOLO11-JDE展示了具有竞争力的跟踪精度,同时保持了较高的效率,因此非常适合实时MOT应用,因为推理速度和模型大小对这些应用至关重要。

总之,我们的主要贡献是:

  • YOLO11-JDE是一种改进的YOLO11s,可执行JDE,体积小、速度快、精度高。
  • 基于Mosaic数据增强和三重损失函数的自我/半监督设置,用于训练JDE模型。
  • 将运动、位置和外观线索整合在一起的定制数据关联算法。

模型算法下载

Coovally AI Hub公众号后台回复「模型算法」,即可获取!


相关工作

通过检测跟踪

根据检测和跟踪任务的结合方式,跟踪任务可大致分为三种主要模式:回归跟踪、检测跟踪和关注跟踪。然而,在研究和实际应用中,TbD是最实用和最广泛使用的方法。这些跟踪方法将MOT分成两个独立的任务:检测和分析。跟踪过程首先是使用高性能检测器(如YOLOX、Faster R-CNN或CenterNet识别每帧中潜在的感兴趣对象。然后,使用跟踪器算法将检测到的物体在连续帧中进行关联,该算法利用多种线索(移动、位置、外观等)执行数据关联。

再识别

为了更好地处理遮挡、拥挤场景和非线性运动,除了IoU和运动线索外,通常还使用外观相似性。因此,DeepSORT、BoT-SORT、SMILETrack和许多其他系统等现代系统都为检测到的物体提取了具有区分性的再识别特征。这些嵌入可以通过外部高质量特征提取器(如FastReID)或JDE模型获得(见上图2a和2b)。尽管SDE方法性能优越,但由于特征提取网络需要对每个边界框的图像或特征图裁剪进行前向推理,因此会产生大量的计算成本,从而限制了实时应用。

联合检测和嵌入

JDE模型在单个网络中执行对象检测和再识别特征提取,以缩短推理时间。Wang等人以单次检测器为重点,重新设计了 YOLOv3的耦合预测头,直接在共享特征上应用1×1卷积层,提取维数为512的嵌入。因此,忽略了所涉及的三个任务之间的内在差异。此外,采用分类方法训练Re-ID任务,将提取的嵌入式数据输入共享的全连接层,以输出分类对数,然后应用交叉熵损失。在这种方法中,没有身份标签的注释会被忽略。CSTrack采用YOLOv5作为检测器,并引入了两个新模块来解耦Re-ID任务和跨尺度融合嵌入。随后的进展,如OMC和TCBTrack,强调了外观线索的时间细化。

最近的JDE方法,即CountingMOT和UTM,在MOTChallenge基准测试中取得了最先进的性能。前者建立在Fair- MOT的基础上,增加了一项额外的计数任务,在检测和密度估算分支之间共享,提高了在拥挤场景中的性能。后者将数据关联步骤纳入统一的跟踪器模型中,形成了一个正反馈循环,从而全面提升了检测和再识别能力。

尽管是为自动驾驶场景设计的,RetinaTrack也值得一提。它是在RetinaNet的基础上设计的,利用三元组损失和挖掘硬三元组来执行JDE任务。


YOLO11-JDE

架构

按照相关的JDE方法,我们的框架基于YOLO系列检测器,它们通常由一个用于生成特征图的主干、一个通过融合浅层和深层表征来完善特征图的颈部以及三个预测头组成(见图2c)。我们特别选择了最先进的YOLO11s版本,因为它具有高效、准确和实时的性能。我们从边界框和分割回归分支的设计中汲取灵感,在原始的多任务解耦头中加入了Re-ID分支。再识别分支通过两个连续的3x3卷积层处理输入特征图,每个卷积层都经过批量归一化和SiLU激活函数。第三个1x1卷积层将特征映射到相应的嵌入维度,不进行批量归一化,这也是最佳做法。这种简单而有效的设计允许Re-ID分支在不引入不必要复杂性的情况下学习判别特征,并以与其他物体检测任务(分类和边界框回归)一致的方式评估任务。因此,YOLO11-JDE会在预测类别和边界框的同时,为每次检测输出外观嵌入(见图2d)。

自监督训练策略

Re-ID分支的目标是生成稳健的嵌入式数据,以促进结果帧之间的数据关联,同时最大限度地减少对大规模分级跟踪数据集的依赖。为实现这一目标,我们受FairMOT和QDTrack的启发,致力于采用完全自我监督的训练方法。

我们的自监督策略的核心是使用马赛克数据增强技术(Mosaic data augmentation),这是一种常用于训练YOLO11等现代物体检测器的技术。马赛克增强的工作原理是将四个不同的图像片段合并到一个输入图像中,从而有效地使模型在不同的变换(包括颜色、比例、旋转等变化)条件下审查相同的特征。如图3所示,这种方法允许JDE模型在进行常规检测训练时,将其暴露于同一输入图像和/或批次中同一身份的多个增强版本,从而学习稳健的特征。因此,每次检测几乎都能免费学习输出外观特征。

虽然我们的方法旨在实现完全的自我监督,但它也兼容半监督训练,在半监督训练中,少量标记的跟踪/身份数据可以补充训练过程。这种灵活性确保该框架能够适应数据可用性水平不同的场景,这在现实世界的应用中至关重要。

Re-ID损失

对于给定的训练批次,模型会输出N个前置预测,每个预测都有一个相关的嵌入,并分配了一个地面真实身份标签。损失函数的目的是在特征空间中将具有相同身份(阳性)的嵌入式拉近,而将具有不同身份(阴性)的嵌入式拉远。这种学习范式是深度度量学习的核心概念,其目标是学习一个特征空间,在这个空间中,距离直接编码数据点之间的意义关系。Re-ID任务既可以作为分类问题来处理,也可以通过优化数据衬底之间的成对相对距离来处理。

受以强制方式训练的常见Re-ID模型的启发,我们采用了成对方法,因为这种方法可以扩展到大量身份。虽然像多重相似性(Multi-Similarity)、InfoNCE或Angular等先进的成对损失算法在某些任务中能提供更高的性能,但我们还是选择了三重损失算法,因为它简单、高效,而且已被证明是有效的。三重损失的目的是通过确保锚点(来自给定身份的样本)比负样本更接近其正向对应样本,从而在正向样本和负样本之间强制执行余量m。损失函数定义如下

数据关联

最初,我们采用了FairMOT中使用的两阶段在线数据关联策略。小轨迹从第一帧的检测中初始化,并在随后的帧中使用运动和外观线索组合进行更新。在第一阶段,卡尔曼滤波器(Kalman Filter)会预测小轨迹点的位置,并计算预测方框与检测方框之间的Mahalanobis距离。归一化再识别嵌入点用于计算余弦距离矩阵,该矩阵与Mahalanobis距离融合后得到最终成本矩阵。使用Hun- garian算法确定匹配度。在第二阶段,根据边界框IoU链接未匹配的小轨迹和检测结果,并采用更严格的匹配阈值。不匹配的检测结果可以初始化新轨迹,而不匹配的小轨迹则会持续30帧以处理遮挡。

在FairMOT追踪器的基础上,受Byte- Track的启发,我们为YOLO11-JDE模型定制了一个简单而有效的追踪器。在第一阶段,使用运动、外观和定位线索组合来匹配有把握的预测。按照FairMOT的方法,将运动与外观融合在一起,同时剔除IoU重叠较低的匹配。然后将IoU差异矩阵与检测的置信度得分相结合,并舍弃低相似度的匹配。最终的成本矩阵是这两个因子的线性组合。对于低置信度的预测和不匹配的检测,只使用IoU进行连接。这种方法兼顾了计算简便性和强大的跟踪性能。


Coovally AI模型训练与应用平台

如果你也想要进行模型改进或模型训练,Coovally平台满足你的要求!

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!


实验结果

数据集和指标

在训练行人跟踪的JDE模型时,通常使用七个数据集。检测数据集包括CrowdHuman、ETH和CityPersons,而MOT17、CalTech、CUHK-SYSU和PRW也提供了身份注释。在我们的研究中,除MOT17数据集外,我们将只探讨上述对象检测数据集,因为添加MOT17数据集是为了在最终评估时对模型进行微调。根据之前的工作,我们使用每个训练序列的后半部构建了MOT17验证集,并删除了ETH中与MOT16基准重叠的视频。

实现细节

我们的框架以Ultralytics基础架构为基础,通过整合身份标签管理、新的JDE头、用于监控联合优化的度量标准和一套新的跟踪算法进行修改,以处理JDE任务。此外,JDE的损失函数和挖掘策略是使用PyTorch公制学习工具实现的。身份注释由现有数据集处理,如果没有,则合成生成。在数据扩充和前景预测对齐过程中会保留身份注释。所有实验均使用YOLO11s模型和COCO预先训练的权重。用于优化和数据扩增的超参数使用默认配置,但Mosaic除外,它在整个训练过程中都被使用。

消融实验

在本节中,我们将对YOLO11-JDE中的四个关键因素进行严格研究,包括Re-ID损失、外观特征的维度以及所需的训练数据和监督量。在保持计算可行性的同时,我们采用了简化的实验设置来分离和分析这些因素的影响。具体来说,我们采用 YOLO11的小型变体作为基线模型,以32个批次规模训练30个历时。Re-ID分支采用了带有单元权重的三重损失,并输出128维嵌入。训练数据仅限于CrowdHuman和MOT17训练半部分的检测数据,所有数据都调整为640像素。在验证时,检测性能在这两个数据集的验证部分进行评估,而ReID性能则完全使用MOT17的基本真实身份标签进行评估。FairMOT的跟踪器算法采用默认配置,用于评估消融,包括1088×608像素的推理分辨率。为了确保评估的全面性,并考虑到各因素之间可能存在的相互作用,我们采用了一种连续的方法,即把一次消融中表现最好的配置作为下一次消融的基线。评估指标以百分比表示。每次消融的最佳结果以粗体显示。

MOTChallenge的结果

我们将自己的方法与现有文献进行了比较,重点是以实时性能为目标的在线JDE模型。

在推理过程中,我们使用新的YOLO11-JDE跟踪器,输入分辨率为1280像素。在私人检测协议下对MOT17和MOT20测试集的结果如表8所示。尽管YOLO11-JDE是比较中唯一一种完全自我监督的方法,但它在各种基准测试中都表现出了极具竞争力的性能,而且在FPS方面明显优于同类方法。在身份切换(ID)方面,YOLO11-JDE的表现优于许多竞争对手,这证明了所生成的嵌入式具有很强的鉴别力。因此,我们将YOLO11-JDE在整体跟踪方面的较低表现归因于该模型检测能力的局限性,而非其重新识别能力。此外,YOLO11-JDE 的参数小于1千万,而CountingMOT等表现优异的方法则依赖于计算成本高昂的检测器,如YOLOX-X(1亿个参数)或CenterNet(2200万个参数)。

有趣的是,与其竞争对手相比,YOLO11-JDE在MOT20中的表现要好于MOT17。值得注意的是,YOLO11-JDE模型和跟踪器都没有使用MOT20数据集进行过训练。在拥挤场景中性能的提高(见图 4)可归因于训练中使用的数据类型。CrowdHuman数据集每张图像的密度接近23人,经过 Mosaic数据增强后,密度放大到每张图像约90人。这种数据组成使得YOLO11-JDE在处理拥挤场景和部分遮挡时具有很强的鲁棒性。


总结

在这项工作中,我们介绍了基于YOLO11s的轻量级高效MOT框架YOLO11-JDE,该框架配备了用于联合检测和em-bedding的Re-ID分支。我们的方法证明,Re-ID可以以完全自我监督的方式进行有效训练,从而避免了对身份标记数据集的需求,同时保持了具有竞争力的跟踪性能。通过将三重损失与硬正向和半硬负向挖掘策略相结合,YOLO11-JDE生成了在各种跟踪场景(尤其是拥挤环境)中都具有鲁棒性的判别嵌入。此外,我们还开发了一种自定义跟踪算法,该算法整合了运动、外观和位置线索,有效提高了数据关联性,并与YOLO11-JDE的输出无缝对接。在MOT17和MOT20基准测试中的评估结果表明,该方法能够提供与最先进模型相当的精确度,同时还能实现出色的FPS并显著减少使用的参数。这些特性使YOLO11-JDE成为实际应用中实用且可扩展的解决方案。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 论文信息
  • 引言
  • 相关工作
    • 通过检测跟踪
    • 再识别
    • 联合检测和嵌入
  • YOLO11-JDE
    • 架构
    • 自监督训练策略
    • Re-ID损失
    • 数据关联
  • Coovally AI模型训练与应用平台
  • 实验结果
    • 数据集和指标
    • 实现细节
    • 消融实验
    • MOTChallenge的结果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档