https://arxiv.org/abs/2402.16370 https://github.com/ouyanghaodong/DEYO
DETR的训练范式在很大程度上取决于在ImageNet数据集上预训练其骨干。然而,由图像分类任务和一对一匹配策略提供的有限监督信号导致DETR的预训练不充分的颈部。此外,在训练的早期阶段匹配的不稳定性会导致DETR的优化目标不一致。
为了解决这些问题,我们设计了一种创新的培训方法,称为分步培训。具体来说,
在不依赖任何补充训练数据的情况下,DEYO在速度和准确性方面都超过了所有现有的实时对象检测器。此外,综合型DEYO系列可以使用单个8 GB RTX 4060 GPU在COCO数据集上完成其第二阶段训练,大大降低了训练支出。源代码和预训练模型可在https://github.com/ouyanghaodong/DEYO上获得。
图2说明了我们提出的DEYO的全面架构。
YOLO模型的泛化能力和实用性在计算机视觉领域得到了广泛的验证和广泛的认可。即使没有额外的数据集的帮助,YOLO在处理复杂场景,执行多目标检测和适应实时应用方面也表现出卓越的性能。
利用这些优势,我们选择YOLO作为DEYO模型的一对多分支,为DEYO提供高质量的、经过预先训练的骨干和颈部结构。该分支具有三个多尺度输出层,能够生成多达8400个候选区域。
与DETR模型所采用的一对一标签分配策略不同,YOLO在训练过程中受益于一对多标签分配策略,由于阳性样本的数量更高,因此在初始训练阶段可以对网络进行更全面的监督。 这些候选区域的任务不仅仅是分类;它们面临着更复杂的目标检测挑战。这进一步培养了一个强大的颈部结构,为解码器提供了丰富的多尺度信息,从而显着提高了模型的整体性能。
与使用Transformer作为编码器的DETR相反,DEYO利用了YOLO's Neck的纯卷积架构,该架构在初始阶段进行了预训练以编码多尺度特征。然后,这些编码的特征被馈送到特征投影模块中,以将它们与隐藏的维度对齐。由于颈部的强大的多尺度特征提取能力,在一开始就通过有效的预训练获得,编码器可以为解码器提供高质量的键值和建议的边界框。与DETR的随机初始化多尺度层和Transformer编码器相比,DEYO的纯卷积结构实现了显着的速度。这一进程可概述如下:
如图3所示,DEYO的查询生成方法与DETR的传统两阶段策略不同。具体来说,DEYO采用了一种解耦的边界框和嵌入生成方法,允许通过特征投影更有效地压缩颈部的多尺度信息。同时,DEYO继承了一个一对多的分支预先训练的边界框头部,将学习策略从密集过渡到稀疏,而不是从头开始训练。
DEYO的一对一分支采用类似于DINO的架构,利用Transformer的自注意机制来捕获查询间关系,从而建立抑制冗余边界框的分数差异。在Transformer解码器的每一层中,查询被逐步细化,最终得到与对象一一对应的预测。这种设计大大简化了DEYO中的对象检测过程,消除了对非最大抑制(NMS)的依赖,确保了一致的推理速度。
在DEYO训练的第二阶段,我们冻结了DEYO的骨干和颈部,以从根本上规避训练初始阶段的二分匹配不稳定性,否则可能会对预训练的骨干造成不良影响。 受益于第一阶段提供的高质量初始化,DEYO实现了快速收敛和卓越的性能,即使在一对一分支中只监督几百个查询并从头开始训练。
在表1中比较了DEYO与YOLOv 5、YOLOv 8和RT-DETR。与YOLOv8相比,DEYO在N、S和M尺度下的准确度显著提高了2.4AP/0.9AP/0.5AP,同时FPS提高了143%/110%/32% 。在尺度L和X上,DEYO继续在准确性和速度之间表现出更好的平衡。
如表3所示,DEYO在密集场景中表现出色,具有实时速度。具体来说,DEYO-X已经达到了令人印象深刻的92.3AP和43.3mMR,召回率为97.3。
如图6所示,在X尺度上,与RT-DETR-X相比,DEYO表现出一些差异,RT-DETR-X利用ImageNet进行预训练。然而,这种差距可以归因于RT-DETR 并入了更有效的骨架。此外,我们认为COCO数据集上的性能并不能完全概括检测器的优点和缺点。考虑到DEYO不需要额外的训练数据,它可以利用更强大的数据增强策略,并降低训练成本。因此,DEYO在应用于自定义数据集时具有独特的优势。