Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络

【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络

作者头像
马上科普尚尚
发布于 2024-07-05 05:13:36
发布于 2024-07-05 05:13:36
4.3K0
举报

作者提出了Mamba-YOLO,它基于SSM,为YOLO系列在目标检测方面建立了新的基准。实验结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力,在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。

深度学习技术的快速发展推动,YOLO系列为实时目标检测器设定了新的基准。研究行人不断在YOLO的基础上探索重参化、高效层聚合网络以及 Anchor-Free 点技术的创新应用。为了进一步提升检测性能,引入了基于Transformer的结构,显著扩大了模型的感受野,并实现了显著的性能提升。然而,这样的改进是有代价的,因为自注意力机制的双曲复杂性增加了模型的计算负担。幸运的是,状态空间模型(SSM)作为一种创新技术的出现,有效地缓解了双曲复杂性引起的问题。

鉴于这些进步,作者引入了Mamba-YOLO,这是一个基于SSM的新型目标检测模型。Mamba-YOLO不仅优化了SSM的基础,还专门适应了目标检测任务。

鉴于SSM在序列建模中可能存在的局限性,如感受野不足和图像局部性弱,作者设计了LSBlock和RGBlock。这些模块使得更精确地捕获局部图像依赖性,并显著增强了模型的鲁棒性。

在公开可用的基准数据集COCO和VOC上的大量实验结果表明,Mamba-YOLO在性能和竞争力上都超越了现有的YOLO系列模型,展示了其实力和竞争力。

PyTorch代码可在以下链接获取:https://github.com/HZAI-ZJNU/Mamba-YOLO。

1 Introduction

近年来,深度学习迅速发展,特别是在计算机视觉领域,一系列强大的结构已经取得了令人印象深刻的性能。从卷积神经网络(CNN)[1; 2; 3; 4; 5]和 Transformer到Mamba架构各种结构的应用已证明了它们在计算机视觉中的强大潜力。

在目标检测这一下游任务中,主要使用了CNN 和Transformer结构[11, 13]。CNN及其一系列改进提供了快速的执行速度同时确保了准确性。然而,由于图像相关性差,研究行人将Transformers引入到目标检测领域,如DETR系列[11, 12, 14],它依赖自注意力强大的全局建模能力来解决CNN感受野小的问题。幸运的是,随着硬件的进步,这种结构带来的内存计算增加并不构成太大问题。但是,近年来,更多的工作[5, 59, 60]开始重新思考如何设计CNN以使模型更快,更多的实践者对Transformer结构的二次复杂度感到不满,开始使用混合结构重建模型并降低复杂度,如MobileVit [61],EdgeVit [62],EfficientFormer [43]。然而,混合模型也带来了问题,性能明显下降也是一个担忧,因此寻找性能与速度之间的平衡一直是研究行人关注的焦点。

YOLO系列在目标检测领域始终是一个里程碑式的实时检测器。从YOLOv4 [25]开始引入CSPNet [63],YOLOv6 [27]开始整合重参化,YOLOv7 [28]使用ELAN重建模型,YOLOv8 [42]采用解耦头和无需 Anchor 点设计。最近提出的YOLOv10 [48]将其设计整合了Transformer结构的元素,引入了部分自注意力(PSA)模块,旨在增强模型的全球建模能力同时控制计算成本。这证明了这个系列始终具有强大的生命力。此外,CNN的结构为模型提供了强大的执行速度,许多实践者已经使用注意力机制来改进这个模型,以在他们的领域中实现期望的性能提升。

ViT-YOLO [38] 将 MHSA-Darknet 引入到 YOLO 中,并采用了增强的训练策略,如 TTA 和加权帧融合技术。然而,参数数量和 FLOPs 的增加并没有带来预期的性能提升,显示了在目标检测任务中 Transformer 可扩展性的局限性,特别是在 YOLO 中。YOLOS [37] 采用基于原始 ViT 架构的最简化改造方案,将 ViT 中的 CLS 标记替换为 DET 标记,并在集成预测方法中采用二分匹配损失。然而,其性能令人失望,且对预训练方案非常敏感,不同的预训练策略下 YOLOS 表现出很大的变异性。Gold-YOLO [29] 提出了一种通过卷积和注意力原语提取和融合特征信息,增强多尺度特征融合的方法。然而,这些方法在整合 Transformer 结构的同时,放弃了其核心优势,即强大的全局注意力机制和长序列处理能力,并试图减少二次复杂度降低带来的计算激增,这通常限制了模型的性能。

最近,基于状态空间模型(SSMs)的方法,如 Mamba [32],由于其强大的长距离依赖建模能力和线性时间复杂度的优越性质,为解决这些问题提供了新的思路。令人激动的是,研究行人已成功将 Mamba 架构引入视觉领域,并在图像分类 [31, 33] 中取得了成功。

受此启发,作者提出了一个问题:能否将 SSM 结构引入目标检测领域,与当前实时检测器结合,从而利用 SSM 的优势,为 YOLO 系列带来新的性能提升?

本文提出了一种名为 Mamba-YOLO 的检测器模型。作者引入了 ODSSBlock 模块,如图4 所示,将 SSM 结构应用于目标检测领域。与用于图像分类的 VSSBlock 不同,输入目标检测的图像具有更大的像素,由于 SSM 模型通常建模文本序列,缺乏对图像的通道表达能力,作者提出了 LSBlock 来建模通道特征。得益于图像中更大的像素和更多的通道维度,作者提出了 RGBlock 结构,在 SS2D 输出后进一步解码,使用点乘的高维表达式来提高通道相关性。Mamba-YOLO 是视觉识别和检测任务的重要进展,旨在构建一个结合了 SSM 和 CNN 优势的新型主干网络。该架构将基于 SSM 的状态空间转换模型应用于 YOLO 的层中,以有效地捕捉全局依赖关系,并利用局部卷积的优势来提高检测精度和模型对复杂场景的理解,同时保持实时性能。这种混合架构有望突破现有视觉模型在处理大规模或高分辨率图像的限制,并为下一代视觉基础模型提供强大而灵活的支持。作者在 PASCAL VOC[35],COCO[36] 上进行了详尽的实验,结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力,在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。

本文的主要贡献可以总结如下:

-作者提出了Mamba-YOLO,它基于SSM,为YOLO系列在目标检测方面建立了新的基准,并为未来基于SSM开发更高效、更有效的检测器奠定了坚实的基础。

-作者提出了ODSSBlock,其中的LS Block能够有效地提取输入特征图的局部空间信息,以补偿SSM的局部建模能力。通过重新思考MLP层的设计,作者提出了结合了门控聚合与有效卷积残差连接思想的RG Block,它有效地捕捉局部依赖关系并增强模型的鲁棒性。

-作者设计了一套不同规模的Mamba-YOLO(Tiny/Base/Large)模型,以支持不同大小和规模的任务部署,并在两个数据集COCO和VOC上进行了实验,如图1所示,结果表明作者的Mamba-YOLO与现有最先进的方法相比,取得了显著的性能提升。

2 Related Work

计算机视觉领域随着深度学习的出现而发生了变革,这在图像分类、目标检测和语义分割等各项任务中均带来了显著的提升。近年来,最初在自然语言处理领域中提出的注意力机制也被引入到计算机视觉中,并取得了令人鼓舞的结果。

Real-time Object Detectors

YOLOv1到YOLOv3[22, 23, 24]是YOLO系列模型的先驱,它们的性能提升都与 Backbone 网络的改进密切相关,使得DarkNet得到了广泛应用。YOLOv4[25]引入了大量提出的残差结构设计CSPDarknet53 Backbone 网络,有效地减少了计算冗余,实现了高性能的特征表达和高效训练。YOLOv7[28]提出了E-ELAN结构,在不破坏原有模型的基础上增强了模型能力。YOLOv8[42]结合了之前几代YOLO的特点,采用了具有更丰富梯度流的C2f结构,在保证准确性的同时,轻量化并适应不同场景。最近,Gold Yolo[29]引入了一种名为GD(聚集与分发)的新机制,通过自注意力操作解决传统特征金字塔网络[52]和Rep-PAN[27]的信息融合问题,并成功实现了SOTA。实际上,由于局部感受野和层次结构设计,传统CNN在应对图像中剧烈的尺度变化、复杂背景和多视角干扰的挑战时具有一定的局限性。

End-to-end Object Detectors

DETR[11]首次将Transformer应用于目标检测,使用了一种 Transformer 编码器-解码器架构,绕过了传统的手工制作组件,如 Anchor 点生成和非最大抑制,将检测视为一个直接的集成预测问题。Deformable DETR[12]引入了可变形注意力,这是Transformer注意力的一种变体,用于在参考位置周围采样一组稀疏的关键点,解决了DETR在处理高分辨率特征图时的局限性。DINO[13]集成了混合 Query 选择策略、可变形注意力,并通过注入噪声和 Query 优化的演示训练展示了性能提升。RT-DETR[14]提出了一种混合编码器,以解耦同尺度交互和跨尺度融合,用于高效的多尺度特征处理。然而,DETR在训练收敛性、计算成本和小目标检测方面存在挑战,而YOLO系列在小模型领域仍然保持着平衡的准确性和速度的SOTA。

Vision State Space Models

近期,状态空间模型(SSM)成为了研究的热点。基于对SSM的研究[39, 40, 41],Mamba[32]在输入大小上展现出线性复杂性,并解决了Transformer在建模状态空间的长序列上的计算效率问题。在广义视觉 Backbone 网络领域,Vision Mamba [33]提出了一个基于SSM的纯视觉 Backbone 模型,标志着Mamba首次被引入到视觉领域。VMamba [31]引入了Cross-Scan模块,使模型能够对2D图像进行选择性扫描,增强了视觉处理能力,并在图像分类任务上展现出优势。LocalMamba [34]关注于视觉空间模型的窗口扫描策略,优化视觉信息以捕捉局部依赖性,并引入动态扫描方法为不同层次寻找最佳选择。MambaOut[49]探索了Mamba架构在视觉任务中的必要性,它指出SSM对于图像分类任务并非必要,但其对于遵循长序列特性的检测和分割任务的价值值得进一步探索。在下游视觉任务中,Mamba也已被广泛应用于医学图像分割[53, 54, 55]和遥感图像分割[56, 57]的研究中。受到VMamba [31]在视觉任务领域取得的显著成果的启发,本文首次提出了mamba YOLO,一个新的SSMs模型,旨在考虑全局感知场的同时,在目标检测任务中展示其潜力。

3 Method

Preliminaries

在方程(4)中,表示调整模型时间分辨率的参数,相应地,和表示给定时间间隔内连续参数的离散时间对应。这里,表示单位矩阵。变换后,模型通过线性递归形式进行计算,可以定义如下:

整个序列变换也可以用卷积形式表示,定义如下:

Simple Stem现代视觉 Transformer (ViTs)通常采用分割的图像块作为其初始模块,将图像划分为非重叠段。这种分割是通过 Kernel 大小为4,步长为4的卷积操作实现的。然而,来自EfficientFormerV2[43]等近期研究指出,这种方法可能会限制ViTs的优化能力,影响整体性能。为了在性能和效率之间取得平衡,作者提出了一个简化的stem层。作者不是使用非重叠图像块,而是采用两个步长为2, Kernel 大小为3的卷积。

在卷积神经网络(CNNs)和视觉 Transformer (ViT)结构通常采用卷积进行下采样的情况下,作者发现这种方法会干扰SS2D[31]在不同信息流阶段的选择性操作。为了解决这个问题,VMamba[31]通过使用1x1卷积拆分2D特征图并减少维度。作者的研究结果表明,为状态空间模型(SSMs)保留更多视觉线索有利于模型训练。与传统的将维度减半的做法不同,作者通过以下步骤简化了这个过程:1) 移除归一化;2) 拆分维度图;3) 将额外的特征图附加到通道维度;4) 使用4倍压缩的点卷积进行下采样。与使用步长为2的3x3卷积不同,作者的方法保留了由前一层SS2D选择的特征图。

ODSS Block

如图4所示,ODSS块是Mamba YOLO的核心模块,在输入阶段经过一系列处理,使网络能够学习更深更丰富的特征表示,同时通过批量归一化保持训练推理过程的高效和稳定。

其中 表示激活函数(非线性SiLU)。ODSS块的层归一化和残差连接设计借鉴了Transformer Blocks[6]风格的架构,这允许模型在深层堆叠时有效流动,并在深层堆叠情况下进行训练。计算公式如下:

LocalSpatial块ResGated块

3.3.1 LocalSpatial Block
3.3.2 ResGated Block

4 Experiments

在本节中,作者针对目标检测任务和一些下游视觉任务对Mamba YOLO进行了全面的实验。作者采用MS COCO[36]数据集来验证所提出的Mamba YOLO的优越性。与现有技术水平相比,作者在COCO2017train数据集上进行训练,并在COCO2017val数据集上进行验证。在消融实验中,作者使用VOC0712[35]数据集验证了所提出方法的每个部分的有效性,其中训练集包含大约16,551张来自VOC2007和VOC2012训练集的图像,验证集由4,952张来自VOC2007测试集的图像组成。作者提到的所有模型都采用从头开始训练的策略,总训练次数为500次。更多设置请参考附录。作者的所有模型都在8个NVIDIA H800 GPU上进行训练。

Comparison with state-of-the-arts

图1和表1展示了与现有最先进的目标检测器相比,在MS-COCO2017val上的结果,其中本文提出的方法在FLOPs、Params和准确度之间取得了最佳的组合权衡。具体来说,Mamba YOLO-Th相比于表现最佳的轻量级模型DAMO YOLO-T/YOLO MS-XS,AP显著提升了3.4%/2.0%,与基准YOLOv8-S相比,Params减少了45.5%,FLOPs减少了50%,而准确度大致相同。将Mamba YOLO-B与具有相似Params和FLOPs的Gold-YOLO-M进行比较,前者的AP比后者高出4.5%。即使与具有相同准确度的Gold-YOLO-M相比,Params也减少了47.2%,FLOPs减少了43.2%。在大模型中,Mamba YOLO-L与每个先进目标检测器相比,也实现了更好或相似的性能。与表现最佳的Gold-YOLO-L相比,Mamba YOLO-L的AP提高了0.3%,而Params减少了0.9%。上述比较结果表明,作者提出的模型在不同规模的Mamba YOLO与现有最先进方法相比,提供了显著的改进。

Ablation study

消融研究的开始部分。

4.2.1 Ablation study on Mamba YOLO

在本节中,作者独立检查了ODSS块中的每个模块,在没有线索合并的情况下,作者使用视觉 Transformer 的传统卷积方法进行下采样,以评估视觉线索合并对准确性的影响。在VOC0712数据集上对Mamba YOLO进行消融实验,测试模型为Mamba YOLO-T。作者的结果表2显示,线索合并为状态空间模型(SSM)保留了更多的视觉线索,并为ODSS块结构确实是最优的这一断言提供了证据。

4.2.2 对RG块结构的消融研究

RGDlock通过获取全局依赖和全局特征来捕捉逐像素的局部依赖。关于RG块设计的细节,作者在多层感知基础之上还考虑了三种变体:1) 卷积MLP,在原始MLP中添加DW-卷积;2) Res-卷积MLP,以残差连接的方式将DW-卷积添加到原始MLP中;3) 门控MLP,在门控机制下设计的MLP变体。图5展示了这些变体,表3显示了在VOC0712数据集上,原始MLP、RG块及每个变体的性能,以验证作者对MLP的分析的有效性,测试模型为Mamba YOLO-T。作者观察到,单独引入卷积并没有导致性能的有效提升,而在图5(d)中的门控MLP变体,其输出由两个线性投影的元素乘积组成,其中一个由残差连接的DWConv和门控激活函数组成,实际上赋予了模型通过层次结构传播重要特征的能力,并有效提高了模型的准确性和鲁棒性。这个实验表明,在处理复杂图像任务时引入卷积的性能提升与门控聚合机制有很大关系,前提是它们在残差连接的背景下应用。

4.2.3 对其他模型和实例分割的消融研究

为了评估作者提出的基于SSM的Mamba YOLO架构的优越性和良好的可扩展性,除了目标检测领域外,作者还将其应用于实例分割任务。作者在Mamba YOLO-T上采用v8分割头[42],并在COCOseg数据集上进行训练和测试,通过Bbox AP和Mask AP等指标评估模型性能。Mamba YOLO-T-seg在每种尺寸上显著优于YOLOv5[46]和YOLOv8[42]的分割模型。基于包含大核深卷积的基本构建块的RTMDet[58],在动态标签分配过程中引入软标签来计算匹配成本,在多个视觉任务中表现出色,而Mamba YOLO-T-seg与其Tiny相比,仍然在Mask mAP上保持2.3的优势。结果如表4和图8所示。

5 Conclusion

在本文中,作者重新分析了卷积神经网络(CNN)和Transformer架构在目标检测领域的优缺点,并指出了它们融合的局限性。

基于此,作者提出了一种基于状态空间模型架构设计的检测器,并通过YOLO进行扩展,作者重新分析了传统多层感知器(MLP)的局限性,并提出了RG块,其门控机制和深度卷积残差连接旨在使模型能够在层次结构中传播重要特征。

此外,为了解决Mamba架构在捕捉局部依赖关系方面的局限性,LSBlock增强了捕捉局部特征的能力,并将其与原始输入融合,以增强特征的表示,这显著提高了模型的检测能力。

作者的目标是建立YOLO的新基准,证明Mamba YOLO具有很高的竞争力。作者的工作是首次在实时目标检测任务中探索Mamba架构,并且作者也希望为该领域的研究者带来新的思路。

参考

[1].Mamba YOLO: SSMs-Based YOLO For Object Detection.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
图像融合旨在从多个源图像中结合基本的信息表示,以生成高质量、内容丰富的融合图像。根据成像设备或成像设置的不同,图像融合可以分为多种类型,包括多模态图像融合(MMIF)、数字摄影图像融合和遥感图像融合。红外-可见光图像融合(IVF)和医学图像融合(MIF)是MMIF的两个典型任务,它们对来自所有传感器的跨模态特征进行建模和融合。特别是,红外传感器捕捉热辐射数据,突出显示显著目标,而可见光传感器捕捉反射光信息,生成富含纹理细节的数字图像。IVF旨在整合源图像中的互补信息,生成在突出显著目标的同时保留丰富纹理细节的高对比度融合图像。这些融合图像提供了增强的场景表示和视觉感知,有助于后续的实际视觉应用,如多模态显著性检测、目标检测和语义分割。
公众号-arXiv每日学术速递
2024/04/25
1.3K0
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
北大 & 中科大提出 PlainMamba | 即插即用,保持高性能的同时大大减少计算量 !
开发高性能的视觉编码器一直是计算机视觉领域最重要的目标之一。借助高质量的视觉特征,一系列下游任务,如语义分割、物体识别和检测,都可以相对容易地解决。
AIGC 先锋科技
2024/07/08
1.7K0
北大 & 中科大提出 PlainMamba | 即插即用,保持高性能的同时大大减少计算量 !
YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——YOLOv12,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。
AI浩
2025/02/26
1.1K2
YOLOv12:以注意力为中心的实时目标检测器
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Transformer 遇到了计算复杂度问题,因为其注意力机制的计算复杂度呈二次方增长 [2],这导致了计算和内存使用的增加。因此,这给模型优化和扩展带来了重大挑战,阻碍了它们的广泛应用。为应对这一挑战,近期的研究引入了一些亚二次的架构,例如 Mamba 和 RWKV [13, 40]。然而,为了针对各种下游任务从头开始训练专门的亚二次模型,会面临显著的计算负担,并产生更高的二氧化碳排放量。幸运的是,作者观察到许多基于 Transformer 的预训练模型,例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。
AIGC 先锋科技
2025/04/13
6040
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/06/18
3940
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
A2Mamba:融合Transformer与Mamba的混合视觉架构
近年来,基于Transformer和Mamba的架构在计算机视觉领域展现出强大的潜力。然而,现有方法通常只是简单堆叠这两类模块,缺乏深层次的交互机制。论文《A2Mamba: Attention-Augmented Mamba for Vision》提出了一种新型的混合视觉主干网络A2Mamba,通过多尺度注意力增强状态空间模型(MASS)实现了Transformer与Mamba的深度融合。
AI浩
2025/09/11
2670
A2Mamba:融合Transformer与Mamba的混合视觉架构
YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世
本文由纽约州立大学布法罗分校的田运杰,David Doermann和中国科学院大学的叶齐祥合作完成。田运杰是布法罗大学博士后,David Doermann是布法罗大学教授、IEEE Fellow, 叶齐祥是中国科学院大学教授。三位作者长期从事计算机视觉、机器感知等方向的研究。
机器之心
2025/02/25
4160
YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世
注意力驱动与卷积并行:KAN-Mamba FusionNet 优化医学图像分割技术 !
医学图像分割有助于准确地定位解剖结构特征,从而及时发现异常并实现患者治疗。最近对开发高级深度学习和计算机视觉方法的研究为解决疾病器官定位的挑战提供了一个途径。可靠的图像分割技术对于帮助医学专家做出明智的决策并提高诊断结果至关重要。这可能潜在地增加患者的寿命。
未来先知
2024/12/19
8090
注意力驱动与卷积并行:KAN-Mamba FusionNet 优化医学图像分割技术 !
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
本文系统回顾了YOLO在多模态目标检测领域的最新进展,重点梳理了当前主流研究中如何结合红外、深度图、文本等多源信息,解决单一RGB模态在弱光、遮挡、低对比等复杂环境下的感知瓶颈。文章围绕轻量化多模态融合、动态模态选择机制、开放词汇检测等核心方向,分析了如MM-YOLO、LMS-YOLO、YOLO-World等代表性工作所引入的门控机制、模态对齐策略与跨模态语义引导方法,展现了YOLO从单模态检测器向多模态感知平台的演进路径。
CoovallyAIHub
2025/07/25
6210
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
Transformer实时检测首次全面超越YOLO:百度LW-DETR轻量高效,精度速度双突破
YOLO系列长期统治着实时目标检测,但Transformer能否取而代之一直是悬而未决的问题。百度最新提出的LW-DETR(Light-Weight DETR)给出了答案:它在保持轻量高效的同时,精度全面超越YOLO,速度也实现突破,真正将Transformer带入实时检测新时代。
CoovallyAIHub
2025/09/02
3290
Transformer实时检测首次全面超越YOLO:百度LW-DETR轻量高效,精度速度双突破
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
6880
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/05
3420
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
改进YOLO | 可能这才是用Transformer正确打开YOLO的方式吧?
目标检测的目的是在给定的图像中分类和定位感兴趣的目标。由于与其他计算机视觉应用的紧密联系,它已经引起了社会各界的极大关注。在深度学习领域取得重大突破之前,已有许多传统的方法被提出来解决目标检测问题。这些方法建立在手工制作的特征表示上。不可避免地依赖于手工制作的特征限制了传统方法的性能。
集智书童公众号
2022/04/07
1.7K0
改进YOLO | 可能这才是用Transformer正确打开YOLO的方式吧?
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
https://www.mdpi.com/1424-8220/25/7/2193 
AI浩
2025/06/19
5170
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
5940
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
显微镜成像技术在医学领域中至关重要,已成为现代医学研究和临床诊断的不可或缺的工具[1]。通过对显微镜图像进行分类,医学研究行人可以在组织、细胞和分子水平观察结构和动态变化,进一步理解疾病机制和病理过程[2]。然而,基于卷积神经网络(CNN)和视觉 Transformer (ViTs)的典型显微镜成像分类(MIC)任务存在局限性,这严重影响了它们捕捉长期信息的能力。虽然有些研究提出了一些方法来降低ViTs的计算复杂性,但牺牲了其在自注意力中捕捉全局信息的能力。因此,迫切需要一种新的架构,可以同时有效地捕捉全局和局部特征,同时保持线性复杂性。
未来先知
2024/10/22
4790
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
在开放和动态的环境中,目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略,跨模态目标检测方法已达到高精度,例如CFT(杨等人,2017年)、GAFF(杨等人,2017年)和CFR
集智书童公众号
2024/05/10
2.2K0
浙江理工 &  谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
Gold-YOLO:基于聚合与分配机制的高效目标检测器
在过去几年中,YOLO 系列模型已成为实时目标检测领域的主流方法。许多研究通过修改架构、扩充数据以及设计新的损失函数,将基线水平提升到了更高层次。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)缓解了这一问题,但以往的模型仍存在信息融合方面的难题。
计算机视觉研究院
2025/02/12
6300
Gold-YOLO:基于聚合与分配机制的高效目标检测器
RD模块在 Faster R-CNN 和 Deformable DETR中的有效性研究,为YOLO 模型带来的性能飞跃 !
在计算机视觉领域,目标检测模型起着关键作用,这些模型旨在精确地在图像中定位物体。它们在医学图像分析和自动驾驶等应用中得到应用。此外,它们还可以作为下游任务,如多目标跟踪和人群计数的基础模型。为了支持这些扩展任务,目标检测模型必须将高精度和低延迟结合在一起,以便下游任务能够利用前人的研究成果。
未来先知
2024/11/13
3600
RD模块在 Faster R-CNN 和 Deformable DETR中的有效性研究,为YOLO 模型带来的性能飞跃 !
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
大家好,今天要给大家介绍的是最新发布的目标检测模型——YOLOv12。相信关注计算机视觉和深度学习的小伙伴们都已经听说过YOLO系列,作为目标检测领域的“老牌明星”,YOLO每次更新都会带来不少惊喜。那么,新鲜出炉的YOLOv12,它到底有哪些亮点呢?今天,就让我们一起来深入了解一下!
CoovallyAIHub
2025/02/20
1.8K0
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
推荐阅读
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
1.3K0
北大 & 中科大提出 PlainMamba | 即插即用,保持高性能的同时大大减少计算量 !
1.7K0
YOLOv12:以注意力为中心的实时目标检测器
1.1K2
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
6040
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
3940
A2Mamba:融合Transformer与Mamba的混合视觉架构
2670
YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世
4160
注意力驱动与卷积并行:KAN-Mamba FusionNet 优化医学图像分割技术 !
8090
别卷单模态了!YOLO+多模态 才是未来场景实战的“天选方案”
6210
Transformer实时检测首次全面超越YOLO:百度LW-DETR轻量高效,精度速度双突破
3290
RecursiveDet | 超越Sparse RCNN,完全端到端目标检测的新曙光
6880
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
3420
改进YOLO | 可能这才是用Transformer正确打开YOLO的方式吧?
1.7K0
RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
5170
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
5940
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
4790
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
2.2K0
Gold-YOLO:基于聚合与分配机制的高效目标检测器
6300
RD模块在 Faster R-CNN 和 Deformable DETR中的有效性研究,为YOLO 模型带来的性能飞跃 !
3600
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
1.8K0
相关推荐
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档