【源头活水】Mamba-YOLO性能超越 YOLO！：SSM+CNN的新型主干网络

马上科普尚尚

发布于 2024-07-05 13:13:36

4.6K0

作者提出了Mamba-YOLO，它基于SSM，为YOLO系列在目标检测方面建立了新的基准。实验结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力，在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。

由深度学习技术的快速发展推动，YOLO系列为实时目标检测器设定了新的基准。研究行人不断在YOLO的基础上探索重参化、高效层聚合网络以及 Anchor-Free 点技术的创新应用。为了进一步提升检测性能，引入了基于Transformer的结构，显著扩大了模型的感受野，并实现了显著的性能提升。然而，这样的改进是有代价的，因为自注意力机制的双曲复杂性增加了模型的计算负担。幸运的是，状态空间模型（SSM）作为一种创新技术的出现，有效地缓解了双曲复杂性引起的问题。

鉴于这些进步，作者引入了Mamba-YOLO，这是一个基于SSM的新型目标检测模型。Mamba-YOLO不仅优化了SSM的基础，还专门适应了目标检测任务。

鉴于SSM在序列建模中可能存在的局限性，如感受野不足和图像局部性弱，作者设计了LSBlock和RGBlock。这些模块使得更精确地捕获局部图像依赖性，并显著增强了模型的鲁棒性。

在公开可用的基准数据集COCO和VOC上的大量实验结果表明，Mamba-YOLO在性能和竞争力上都超越了现有的YOLO系列模型，展示了其实力和竞争力。

PyTorch代码可在以下链接获取：https://github.com/HZAI-ZJNU/Mamba-YOLO。

1 Introduction

近年来，深度学习迅速发展，特别是在计算机视觉领域，一系列强大的结构已经取得了令人印象深刻的性能。从卷积神经网络（CNN）[1; 2; 3; 4; 5]和 Transformer到Mamba架构各种结构的应用已证明了它们在计算机视觉中的强大潜力。

在目标检测这一下游任务中，主要使用了CNN 和Transformer结构[11, 13]。CNN及其一系列改进提供了快速的执行速度同时确保了准确性。然而，由于图像相关性差，研究行人将Transformers引入到目标检测领域，如DETR系列[11, 12, 14]，它依赖自注意力强大的全局建模能力来解决CNN感受野小的问题。幸运的是，随着硬件的进步，这种结构带来的内存计算增加并不构成太大问题。但是，近年来，更多的工作[5, 59, 60]开始重新思考如何设计CNN以使模型更快，更多的实践者对Transformer结构的二次复杂度感到不满，开始使用混合结构重建模型并降低复杂度，如MobileVit [61]，EdgeVit [62]，EfficientFormer [43]。然而，混合模型也带来了问题，性能明显下降也是一个担忧，因此寻找性能与速度之间的平衡一直是研究行人关注的焦点。

YOLO系列在目标检测领域始终是一个里程碑式的实时检测器。从YOLOv4 [25]开始引入CSPNet [63]，YOLOv6 [27]开始整合重参化，YOLOv7 [28]使用ELAN重建模型，YOLOv8 [42]采用解耦头和无需 Anchor 点设计。最近提出的YOLOv10 [48]将其设计整合了Transformer结构的元素，引入了部分自注意力（PSA）模块，旨在增强模型的全球建模能力同时控制计算成本。这证明了这个系列始终具有强大的生命力。此外，CNN的结构为模型提供了强大的执行速度，许多实践者已经使用注意力机制来改进这个模型，以在他们的领域中实现期望的性能提升。

ViT-YOLO [38] 将 MHSA-Darknet 引入到 YOLO 中，并采用了增强的训练策略，如 TTA 和加权帧融合技术。然而，参数数量和 FLOPs 的增加并没有带来预期的性能提升，显示了在目标检测任务中 Transformer 可扩展性的局限性，特别是在 YOLO 中。YOLOS [37] 采用基于原始 ViT 架构的最简化改造方案，将 ViT 中的 CLS 标记替换为 DET 标记，并在集成预测方法中采用二分匹配损失。然而，其性能令人失望，且对预训练方案非常敏感，不同的预训练策略下 YOLOS 表现出很大的变异性。Gold-YOLO [29] 提出了一种通过卷积和注意力原语提取和融合特征信息，增强多尺度特征融合的方法。然而，这些方法在整合 Transformer 结构的同时，放弃了其核心优势，即强大的全局注意力机制和长序列处理能力，并试图减少二次复杂度降低带来的计算激增，这通常限制了模型的性能。

最近，基于状态空间模型（SSMs）的方法，如 Mamba [32]，由于其强大的长距离依赖建模能力和线性时间复杂度的优越性质，为解决这些问题提供了新的思路。令人激动的是，研究行人已成功将 Mamba 架构引入视觉领域，并在图像分类 [31, 33] 中取得了成功。

受此启发，作者提出了一个问题：能否将 SSM 结构引入目标检测领域，与当前实时检测器结合，从而利用 SSM 的优势，为 YOLO 系列带来新的性能提升？

本文提出了一种名为 Mamba-YOLO 的检测器模型。作者引入了 ODSSBlock 模块，如图4 所示，将 SSM 结构应用于目标检测领域。与用于图像分类的 VSSBlock 不同，输入目标检测的图像具有更大的像素，由于 SSM 模型通常建模文本序列，缺乏对图像的通道表达能力，作者提出了 LSBlock 来建模通道特征。得益于图像中更大的像素和更多的通道维度，作者提出了 RGBlock 结构，在 SS2D 输出后进一步解码，使用点乘的高维表达式来提高通道相关性。Mamba-YOLO 是视觉识别和检测任务的重要进展，旨在构建一个结合了 SSM 和 CNN 优势的新型主干网络。该架构将基于 SSM 的状态空间转换模型应用于 YOLO 的层中，以有效地捕捉全局依赖关系，并利用局部卷积的优势来提高检测精度和模型对复杂场景的理解，同时保持实时性能。这种混合架构有望突破现有视觉模型在处理大规模或高分辨率图像的限制，并为下一代视觉基础模型提供强大而灵活的支持。作者在 PASCAL VOC[35]，COCO[36] 上进行了详尽的实验，结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力，在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。

本文的主要贡献可以总结如下：

-作者提出了Mamba-YOLO，它基于SSM，为YOLO系列在目标检测方面建立了新的基准，并为未来基于SSM开发更高效、更有效的检测器奠定了坚实的基础。

-作者提出了ODSSBlock，其中的LS Block能够有效地提取输入特征图的局部空间信息，以补偿SSM的局部建模能力。通过重新思考MLP层的设计，作者提出了结合了门控聚合与有效卷积残差连接思想的RG Block，它有效地捕捉局部依赖关系并增强模型的鲁棒性。

-作者设计了一套不同规模的Mamba-YOLO（Tiny/Base/Large）模型，以支持不同大小和规模的任务部署，并在两个数据集COCO和VOC上进行了实验，如图1所示，结果表明作者的Mamba-YOLO与现有最先进的方法相比，取得了显著的性能提升。

2 Related Work

计算机视觉领域随着深度学习的出现而发生了变革，这在图像分类、目标检测和语义分割等各项任务中均带来了显著的提升。近年来，最初在自然语言处理领域中提出的注意力机制也被引入到计算机视觉中，并取得了令人鼓舞的结果。

Real-time Object Detectors

YOLOv1到YOLOv3[22, 23, 24]是YOLO系列模型的先驱，它们的性能提升都与 Backbone 网络的改进密切相关，使得DarkNet得到了广泛应用。YOLOv4[25]引入了大量提出的残差结构设计CSPDarknet53 Backbone 网络，有效地减少了计算冗余，实现了高性能的特征表达和高效训练。YOLOv7[28]提出了E-ELAN结构，在不破坏原有模型的基础上增强了模型能力。YOLOv8[42]结合了之前几代YOLO的特点，采用了具有更丰富梯度流的C2f结构，在保证准确性的同时，轻量化并适应不同场景。最近，Gold Yolo[29]引入了一种名为GD（聚集与分发）的新机制，通过自注意力操作解决传统特征金字塔网络[52]和Rep-PAN[27]的信息融合问题，并成功实现了SOTA。实际上，由于局部感受野和层次结构设计，传统CNN在应对图像中剧烈的尺度变化、复杂背景和多视角干扰的挑战时具有一定的局限性。

End-to-end Object Detectors

DETR[11]首次将Transformer应用于目标检测，使用了一种 Transformer 编码器-解码器架构，绕过了传统的手工制作组件，如 Anchor 点生成和非最大抑制，将检测视为一个直接的集成预测问题。Deformable DETR[12]引入了可变形注意力，这是Transformer注意力的一种变体，用于在参考位置周围采样一组稀疏的关键点，解决了DETR在处理高分辨率特征图时的局限性。DINO[13]集成了混合 Query 选择策略、可变形注意力，并通过注入噪声和 Query 优化的演示训练展示了性能提升。RT-DETR[14]提出了一种混合编码器，以解耦同尺度交互和跨尺度融合，用于高效的多尺度特征处理。然而，DETR在训练收敛性、计算成本和小目标检测方面存在挑战，而YOLO系列在小模型领域仍然保持着平衡的准确性和速度的SOTA。

Vision State Space Models

近期，状态空间模型（SSM）成为了研究的热点。基于对SSM的研究[39, 40, 41]，Mamba[32]在输入大小上展现出线性复杂性，并解决了Transformer在建模状态空间的长序列上的计算效率问题。在广义视觉 Backbone 网络领域，Vision Mamba [33]提出了一个基于SSM的纯视觉 Backbone 模型，标志着Mamba首次被引入到视觉领域。VMamba [31]引入了Cross-Scan模块，使模型能够对2D图像进行选择性扫描，增强了视觉处理能力，并在图像分类任务上展现出优势。LocalMamba [34]关注于视觉空间模型的窗口扫描策略，优化视觉信息以捕捉局部依赖性，并引入动态扫描方法为不同层次寻找最佳选择。MambaOut[49]探索了Mamba架构在视觉任务中的必要性，它指出SSM对于图像分类任务并非必要，但其对于遵循长序列特性的检测和分割任务的价值值得进一步探索。在下游视觉任务中，Mamba也已被广泛应用于医学图像分割[53, 54, 55]和遥感图像分割[56, 57]的研究中。受到VMamba [31]在视觉任务领域取得的显著成果的启发，本文首次提出了mamba YOLO，一个新的SSMs模型，旨在考虑全局感知场的同时，在目标检测任务中展示其潜力。

3 Method

Preliminaries

在方程(4)中，表示调整模型时间分辨率的参数，相应地，和表示给定时间间隔内连续参数的离散时间对应。这里，表示单位矩阵。变换后，模型通过线性递归形式进行计算，可以定义如下：

整个序列变换也可以用卷积形式表示，定义如下：

Simple Stem现代视觉 Transformer （ViTs）通常采用分割的图像块作为其初始模块，将图像划分为非重叠段。这种分割是通过 Kernel 大小为4，步长为4的卷积操作实现的。然而，来自EfficientFormerV2[43]等近期研究指出，这种方法可能会限制ViTs的优化能力，影响整体性能。为了在性能和效率之间取得平衡，作者提出了一个简化的stem层。作者不是使用非重叠图像块，而是采用两个步长为2， Kernel 大小为3的卷积。

在卷积神经网络（CNNs）和视觉 Transformer （ViT）结构通常采用卷积进行下采样的情况下，作者发现这种方法会干扰SS2D[31]在不同信息流阶段的选择性操作。为了解决这个问题，VMamba[31]通过使用1x1卷积拆分2D特征图并减少维度。作者的研究结果表明，为状态空间模型（SSMs）保留更多视觉线索有利于模型训练。与传统的将维度减半的做法不同，作者通过以下步骤简化了这个过程：1) 移除归一化；2) 拆分维度图；3) 将额外的特征图附加到通道维度；4) 使用4倍压缩的点卷积进行下采样。与使用步长为2的3x3卷积不同，作者的方法保留了由前一层SS2D选择的特征图。

ODSS Block

如图4所示，ODSS块是Mamba YOLO的核心模块，在输入阶段经过一系列处理，使网络能够学习更深更丰富的特征表示，同时通过批量归一化保持训练推理过程的高效和稳定。

其中表示激活函数（非线性SiLU）。ODSS块的层归一化和残差连接设计借鉴了Transformer Blocks[6]风格的架构，这允许模型在深层堆叠时有效流动，并在深层堆叠情况下进行训练。计算公式如下：

LocalSpatial块ResGated块

3.3.1 LocalSpatial Block

3.3.2 ResGated Block

4 Experiments

在本节中，作者针对目标检测任务和一些下游视觉任务对Mamba YOLO进行了全面的实验。作者采用MS COCO[36]数据集来验证所提出的Mamba YOLO的优越性。与现有技术水平相比，作者在COCO2017train数据集上进行训练，并在COCO2017val数据集上进行验证。在消融实验中，作者使用VOC0712[35]数据集验证了所提出方法的每个部分的有效性，其中训练集包含大约16,551张来自VOC2007和VOC2012训练集的图像，验证集由4,952张来自VOC2007测试集的图像组成。作者提到的所有模型都采用从头开始训练的策略，总训练次数为500次。更多设置请参考附录。作者的所有模型都在8个NVIDIA H800 GPU上进行训练。

Comparison with state-of-the-arts

图1和表1展示了与现有最先进的目标检测器相比，在MS-COCO2017val上的结果，其中本文提出的方法在FLOPs、Params和准确度之间取得了最佳的组合权衡。具体来说，Mamba YOLO-Th相比于表现最佳的轻量级模型DAMO YOLO-T/YOLO MS-XS，AP显著提升了3.4%/2.0%，与基准YOLOv8-S相比，Params减少了45.5%，FLOPs减少了50%，而准确度大致相同。将Mamba YOLO-B与具有相似Params和FLOPs的Gold-YOLO-M进行比较，前者的AP比后者高出4.5%。即使与具有相同准确度的Gold-YOLO-M相比，Params也减少了47.2%，FLOPs减少了43.2%。在大模型中，Mamba YOLO-L与每个先进目标检测器相比，也实现了更好或相似的性能。与表现最佳的Gold-YOLO-L相比，Mamba YOLO-L的AP提高了0.3%，而Params减少了0.9%。上述比较结果表明，作者提出的模型在不同规模的Mamba YOLO与现有最先进方法相比，提供了显著的改进。

Ablation study

消融研究的开始部分。

4.2.1 Ablation study on Mamba YOLO

在本节中，作者独立检查了ODSS块中的每个模块，在没有线索合并的情况下，作者使用视觉 Transformer 的传统卷积方法进行下采样，以评估视觉线索合并对准确性的影响。在VOC0712数据集上对Mamba YOLO进行消融实验，测试模型为Mamba YOLO-T。作者的结果表2显示，线索合并为状态空间模型（SSM）保留了更多的视觉线索，并为ODSS块结构确实是最优的这一断言提供了证据。

4.2.2 对RG块结构的消融研究

RGDlock通过获取全局依赖和全局特征来捕捉逐像素的局部依赖。关于RG块设计的细节，作者在多层感知基础之上还考虑了三种变体：1) 卷积MLP，在原始MLP中添加DW-卷积；2) Res-卷积MLP，以残差连接的方式将DW-卷积添加到原始MLP中；3) 门控MLP，在门控机制下设计的MLP变体。图5展示了这些变体，表3显示了在VOC0712数据集上，原始MLP、RG块及每个变体的性能，以验证作者对MLP的分析的有效性，测试模型为Mamba YOLO-T。作者观察到，单独引入卷积并没有导致性能的有效提升，而在图5(d)中的门控MLP变体，其输出由两个线性投影的元素乘积组成，其中一个由残差连接的DWConv和门控激活函数组成，实际上赋予了模型通过层次结构传播重要特征的能力，并有效提高了模型的准确性和鲁棒性。这个实验表明，在处理复杂图像任务时引入卷积的性能提升与门控聚合机制有很大关系，前提是它们在残差连接的背景下应用。

4.2.3 对其他模型和实例分割的消融研究

为了评估作者提出的基于SSM的Mamba YOLO架构的优越性和良好的可扩展性，除了目标检测领域外，作者还将其应用于实例分割任务。作者在Mamba YOLO-T上采用v8分割头[42]，并在COCOseg数据集上进行训练和测试，通过Bbox AP和Mask AP等指标评估模型性能。Mamba YOLO-T-seg在每种尺寸上显著优于YOLOv5[46]和YOLOv8[42]的分割模型。基于包含大核深卷积的基本构建块的RTMDet[58]，在动态标签分配过程中引入软标签来计算匹配成本，在多个视觉任务中表现出色，而Mamba YOLO-T-seg与其Tiny相比，仍然在Mask mAP上保持2.3的优势。结果如表4和图8所示。