Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

作者头像
机器之心
发布于 2025-02-25 00:37:19
发布于 2025-02-25 00:37:19
1940
举报
文章被收录于专栏:机器之心机器之心

本文由纽约州立大学布法罗分校的田运杰,David Doermann和中国科学院大学的叶齐祥合作完成。田运杰是布法罗大学博士后,David Doermann是布法罗大学教授、IEEE Fellow, 叶齐祥是中国科学院大学教授。三位作者长期从事计算机视觉、机器感知等方向的研究。

YOLO 系列模型的结构创新一直围绕 CNN 展开,而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。本周三放出的 YOLOv12 着力改变这一现状并取得具有优势的性能。

  • 论文标题:YOLOv12: Attention-Centric Real-Time Object Detectors
  • 论文地址:https://arxiv.org/pdf/2502.12524
  • 代码地址:https://github.com/sunsmarterjie/yolov12

介绍

造成 attention(注意力机制)不能作为核心模块用于 yolo 框架的主要原因在于其本身的低效性,这主要源于两个因素:(1)attention 的计算复杂度呈二次增长;(2)attention 的内存访问操作低效(后者是 FlashAttention 主要解决的问题)。在相同的计算预算下,基于 CNN 的架构比基于 attention 的架构快约 2-3 倍,这极大限制了 attention 在 YOLO 系统中的应用,由于 YOLO 体系高度依赖高推理速度。

首先,作者提出了一种简单而高效的区域注意力模块(area attention, A2),该模块在保持大感受野的同时,以最简单直接的方式降低了 attention 的计算复杂度,从而提升了计算速度。

其次,作者引入了残差高效层聚合网络(R-ELAN),以解决 attention(主要是大规模模型)带来的优化难题。

R-ELAN 在原始的基础上进行了两项改进:1)block 级残差设计,结合缩放技术以优化梯度流动;2)重新设计的特征聚合方法,以提升模型的优化效率。

最后,作者针对 YOLO 体系对 attention 进行了一系列架构改进,优化了传统的 attention 主导架构,包括:1)引入 FlashAttention 以解决注意力机制的显存访问问题;2)移除位置编码等设计,使模型更加高效简洁;3)调整 MLP ratio(从 4 降至 1.2),以平衡注意力机制和前馈网络的计算开销,从而提升整体性能;4)减少堆叠块的深度,以简化优化过程等。

Area Attention

首先介绍 area attention 机制,其目的在于降低传统 attention 的计算代价,同时克服线性注意力和局部注意力在全局依赖性、稳定性及感受野方面的局限性。为此,作者提出了一种简单高效的区域注意力(A2)模块。

不同于局部注意力的显式窗口划分,A2 采用最简单的方式将特征图划分为纵向或横向的区域(每个区域大小为

,这仅需简单的 reshape 操作,避免了额外的复杂计算带来的开销,从而提升计算效率。

在实验中,作者将默认分割数

设为 4,使感受野缩小至原来的

,仍能覆盖足够的信息范围。在计算复杂度方面,A2 将注意力机制的计算量从

降低至

。尽管仍保持二次复杂度,但在 token 数量 n 不是特别大的情况下(如 YOLO:640x640),此优化方案在实际应用中仍足够高效,满足了实时推理的需求。最终,实验表明,A2 仅对性能产生轻微影响,但显著提升了计算速度,为 YOLO 等对速度要求极高的任务提供了一种更优的注意力机制替代方案。

R-ELAN

R-ELAN 的主要动机是优化 ELAN 结构,以提升特征聚合效率并解决其带来的优化不稳定性问题,尤其是在引入注意力机制后,参数量较大的模型(如 YOLOv12-L 和 YOLOv12-X)容易发生梯度阻塞或收敛困难。为此,作者提出了残差高效层聚合网络(R-ELAN)。

与原始 ELAN 不同,R-ELAN 在整个 block 内引入从输入到输出的残差连接,并结合缩放因子(默认 0.01),以稳定训练并优化梯度流动。

此外,作者重新设计了特征聚合方式,使其采用瓶颈结构(如上图所示),通过调整通道维度并简化计算流程,以减少计算成本和显存占用,同时保持高效的特征融合能力。最终,R-ELAN 显著提升了模型的优化稳定性和计算效率,使 YOLOv12 的大规模模型能够更好地收敛,并在保证性能的同时提升推理速度。

结构改进

另外,作者还提出一些优化技术,使注意力机制更适应实时目标检测任务,同时降低计算开销并提升优化稳定性。

首先,作者保留了 YOLO 主干网络的分层设计,不同于很多基于 attention 的架构采用的平铺结构的视觉 Transformer。

此外,作者减少了主干网络(Backbone)最后阶段的堆叠的 block 数量,仅保留单个 R-ELAN block,以减少计算量并优化训练收敛性。主干网络的前两阶段继承自 YOLOv11,未使用 R-ELAN,以保持轻量级设计。

同时,作者对基础注意力机制进行了一系列优化,包括:调整 MLP ratio(从 4 降至 1.2 或 2)以更合理地分配计算资源,用 Conv2d+BN 替换 Linear+LN 以充分利用卷积算子的计算效率,移除位置编码并引入 7x7 可分离卷积(Position Perceiver) 以帮助区域注意力感知位置信息。

最终,这些改进提升了模型的优化稳定性和计算效率,使其更适用于 YOLO 系统,同时保持具有竞争力的性能。

实验结果

YOLOv12 在 COCO 上取得的效果如下表所示:

  • N-scale 模型:YOLOv12-N 比 YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N 和 YOLOv11-N 分别提升 3.6%、3.3%、2.1%、1.2%,同时计算量和参数规模相近或更少,推理速度达到具有竞争力的 1.64 ms / 图像。
  • S-scale 模型:YOLOv12-S 在 21.4G FLOPs 和 9.3M 参数的情况下,实现 48.0% mAP,比 YOLOv8-S、YOLOv9-S、YOLOv10-S 和 YOLOv11-S 分别提升 3.0%、1.2%、1.7%、1.1%,计算量相近或更少,并且在推理速度、计算开销和参数量方面明显优于 RT-DETR-R18 / RT-DETRv2-R18。
  • M-scale 模型:YOLOv12-M 在 67.5G FLOPs 和 20.2M 参数的情况下,实现 52.5 mAP,推理速度 4.86 ms / 图像,在各项指标上均优于 Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M 以及 RT-DETR-R34 / RT-DETRv2-R34。
  • L-scale 模型:YOLOv12-L 相较于 YOLOv10-L,减少了 31.4G FLOPs 的计算量,同时 mAP 仍优于 YOLOv11-L 达 0.4%,计算量和参数量相近。此外,YOLOv12-L 在推理速度、FLOPs(减少 34.6%)和参数量(减少 37.1%)方面均优于 RT-DETR-R50 / RT-DETRv2-R50。
  • X-scale 模型:YOLOv12-X 比 YOLOv10-X 和 YOLOv11-X 分别提升 0.8% 和 0.6%,计算量和参数量相近,推理速度基本持平。同时,相比 RT-DETR-R101 / RT-DETRv2-R101,YOLOv12-X 计算量减少 23.4%,参数量减少 22.2%,且推理速度更快。

可视化分析

参数量 / CPU 速度 - 精度的 Trade-offs 比较:YOLOv12 在参数量和 CPU 推理速度方面上均实现了突破。如上图所示,实验结果显示,YOLOv12 在准确率 - 参数量平衡方面优于现有方法,甚至超越了参数量更少的 YOLOv10,证明了其高效性。此外,在 CPU(Intel Core i7-10700K @ 3.80GHz)上的推理速度测试中,YOLOv12 在不同 YOLO 版本中展现出最佳的计算效率。

YOLOv12 热力图分析:上图展示了 YOLOv12 与当前最先进的 YOLOv10 和 YOLOv11 的热力图对比。这些热力图来自 X-scale 模型主干网络的第三阶段,显示了模型激活的区域,从而反映其目标感知能力。结果表明,相较于 YOLOv10 和 YOLOv11,YOLOv12 能够生成更清晰的目标轮廓和更精确的前景激活,说明其目标感知能力得到了提升。这一改进主要归因于区域注意力机制(Area Attention),该机制相比卷积网络具有更大的感受野,因此在捕捉全局上下文信息方面更具优势,从而实现了更精准的前景激活。作者认为,这一特性使 YOLOv12 在检测性能上占据优势。

最后,我们期待 YOLO 社区能继续提出更强大的检测器,为实时目标检测任务提供更多选择。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
革新突破!YOLOv12携注意力机制震撼登场,实时检测快如闪电!
YOLOv12提出了以注意力为中心的实时目标检测框架,通过方法论创新和架构改进,打破了传统CNN在YOLO系列中的主导地位。
AI小怪兽
2025/02/24
4300
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
大家好,今天要给大家介绍的是最新发布的目标检测模型——YOLOv12。相信关注计算机视觉和深度学习的小伙伴们都已经听说过YOLO系列,作为目标检测领域的“老牌明星”,YOLO每次更新都会带来不少惊喜。那么,新鲜出炉的YOLOv12,它到底有哪些亮点呢?今天,就让我们一起来深入了解一下!
CoovallyAIHub
2025/02/20
8030
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YOLO系列一直是实时目标检测领域的领先框架,不断提高速度和准确性之间的平衡。然而,将注意力机制整合到YOLO中一直具有挑战性,因为它们的计算开销很高。YOLOv12引入了一种新方法,在保持实时性能的同时,成功地集成了基于注意力的增强功能。本文全面回顾了YOLOv12在架构上的创新,包括用于提高计算效率的区域注意(Area Attention)、用于改进特征聚合的剩余高效层聚合网络(Residual Efficient Layer Aggregation Networks)和用于优化内存访问的闪存注意(FlashAttention)。此外,我们还将YOLOv12与之前的YOLO版本和竞争对象检测器进行了比较,分析了其在准确性、推理速度和计算效率方面的改进。通过分析,我们展示了YOLOv12如何通过改进延迟与准确性的权衡和优化计算资源来推进实时对象检测。
CoovallyAIHub
2025/04/25
4880
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——YOLOv12,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。
AI浩
2025/02/26
4281
YOLOv12:以注意力为中心的实时目标检测器
YOLOv12源码分析+如何训练自己的数据集(NEU-DET缺陷检测为案列)
💡💡💡本文内容:YOLOv12创新点A2C2f和Area Attention结构分析,以及如何训练自己的私有数据集
AI小怪兽
2025/02/25
7692
YOLOv12涨点优化:IoU优化 | 一种新的Shape IoU,更加关注边界框本身的形状和尺度,对小目标检测也很友好
💡💡💡现有IoU问题点:现有的边界盒回归方法通常考虑GT盒与预测盒之间的几何关系,利用边界盒的相对位置和形状来计算损失,而忽略了边界盒的形状和规模等固有属性对边界盒回归的影响。
AI小怪兽
2025/03/12
3490
YOLOv12优化:图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络(TBSN)架构 ,结合空间和通道自注意力
💡💡💡 提出了一种基于Transformer的盲点网络(TBSN)架构,通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则,并结合空间和通道自注意力层来增强网络能力。
AI小怪兽
2025/03/20
2170
YOLOv12优化:注意力魔改 | 新颖的多尺度卷积注意力(MSCA),即插即用,助力小目标检测
💡💡💡本文改进:多尺度卷积注意力(MSCA),有效地提取上下文信息,新颖度高,创新十足。
AI小怪兽
2025/03/10
8020
YOLOv12架构深度解析:关键架构特征的细分
本文对YOLOv12进行了架构分析,YOLOv12是单级实时物体检测领域的一项重大进步,它继承了前代产品的优点,同时引入了关键改进。该模型采用了优化的骨干网(R-ELAN)、7×7可分离卷积和FlashAttention驱动的基于区域的注意力,从而改进了特征提取、提高了效率并增强了检测的鲁棒性。YOLOv12具有多种模型变体,与其前代产品类似,可为延迟敏感型和高精度应用提供可扩展的解决方案。实验结果表明,YOLOv12在平均精度(mAP)和推理速度方面都有持续的提高,这使得YOLOv12成为自主系统、安全和实时分析应用中的一个令人信服的选择。通过实现计算效率和性能之间的最佳平衡,YOLOv12树立了实时计算机视觉的新基准,促进了从边缘设备到高性能集群等各种硬件平台的部署。
CoovallyAIHub
2025/02/27
8020
YOLOv12架构深度解析:关键架构特征的细分
YOLOv12优化:遥感去雾 | 新颖的双注意力块(DAB)
💡💡💡 本文目的:通过利用一个新颖的双注意力块实现了更好的去雾性能,同时大幅降低了模型复杂度。这个双注意力块串联了两个模块:通道-空间注意力和并行注意力。我们提出了一种新的并行注意力架构,通过并行连接三种不同的注意力机制(全局通道注意力、局部通道注意力和空间注意力),实现了更好的去雾效果。
AI小怪兽
2025/04/03
3490
YOLOv12优化:卷积魔改创新 | AAAI 2025 | 一种新颖的风车形卷积(PConv)符合微弱小目标的像素高斯空间分布,增强特征提取,显著增加接受野
💡💡💡 我们提出了一种新颖的风车形卷积(PConv)作为骨干网络下层标准卷积的替代品。PConv能更好地符合微弱小目标的像素高斯空间分布,增强特征提取,显著增加接受野,且只引入最小的参数增加。
AI小怪兽
2025/03/19
5050
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力,果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能,开发了一个自定义数据集,其中包括单类(绿色水果)和多类(遮挡和非遮挡绿色水果)注释。RF-DETR目标检测模型利用 DINOv2 骨干和可变形注意力机制,在全局上下文建模方面表现出色,在识别部分遮挡或视觉模糊的绿色水果方面尤其有效。与此相反,YOLOv12 模型采用了基于CNN的注意力机制来加强局部特征提取,优化了计算效率和边缘部署的适用性。在单类检测场景中,RF-DETR的平均精度(mAP@50)最高,达到0.9464,显示了其在杂乱场景中准确定位绿色水果的强大能力。尽管YOLOv12N的mAP@50:95 达到了0.7620的最高值,但RF-DETR目标检测模型在管理复杂空间场景方面的表现始终优于YOLOv12N。在多类检测中,RF-DETR以0.8298的mAP@50再次领先,表明其在区分遮挡和非遮挡水果方面的有效性,而YOLOv12L则以0.6622高居mAP@50:95 指标榜首,表明其在详细遮挡条件下的分类能力更胜一筹。对模型训练动态的分析表明,RF-DETR的收敛速度很快,尤其是在单类场景中,不到10个epoch就达到了平稳状态,这凸显了基于transformer-based的架构对动态视觉数据的效率和适应性。这些结果证实了RF-DETR适用于对准确性要求极高的农业任务,而YOLOv12仍然是对速度敏感的部署的理想选择。
CoovallyAIHub
2025/04/23
2750
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
YOLO 系列目标检测大合集
YOLO(You Only Look Once,你只看一次)是一系列开创性的实时目标检测模型,它们彻底改变了计算机视觉领域。由Joseph Redmon开发,后续版本由不同研究人员迭代,YOLO模型以其在图像中检测对象的高速度和准确性而闻名。以下是对每个YOLO版本的详细查看:
小白学视觉
2024/11/01
4640
YOLO 系列目标检测大合集
利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
之前小编分享过关于《YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度》,改进YOLO11算法后,进行苹果树的实例分割。本期文章我们将分享关于最新的YOLO12算法改进的苹果目标检测。
CoovallyAIHub
2025/03/18
1790
利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
实时目标检测一直是计算机视觉研究领域的一个重点,旨在在低延迟下准确预测图像中物体的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶,机器人导航,物体跟踪等。近年来,研究行人一直致力于设计基于CNN的目标检测器以实现实时检测。其中,YOLOs因其性能和效率之间的巧妙平衡而越来越受欢迎。YOLOs的检测流程包括两部分:模型前向过程和NMS后处理。然而,这两者仍存在不足,导致次优的准确度-延迟边界。
集智书童公众号
2024/05/28
3.7K0
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
YOLO论文分享(5): IHA-YOLO: 用于实时细胞检测的跨检测头注意力机制,ISBI 2025
💡💡💡本文摘要:以下是论文"IHA-YOLO: Inter-Head Attention for Real-time Cell Detection"的贡献:
AI小怪兽
2025/04/02
2120
清华发布YOLOv10,真正实时端到端目标检测
标题:YOLOv10: Real-Time End-to-End Object Detection 论文:https://arxiv.org/pdf/2405.14458et=https%3A//arxiv.org/pdf/2405.14458.zhihu.com/?target=https%3A//arxiv.org/pdf/2405.14458 源码:https://github.com/THU-MIG/yolov10hhttps://github.com/THU-MIG/yolov10ttps://
机器学习AI算法工程
2024/05/29
8480
清华发布YOLOv10,真正实时端到端目标检测
YOLOv10真正实时端到端目标检测(原理介绍+代码详见+结构框图)
💡💡💡本文主要内容:真正实时端到端目标检测(原理介绍+代码详见+结构框图)| YOLOv10如何训练自己的数据集(NEU-DET为案列)
AI小怪兽
2024/06/08
15.3K0
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
作者提出了Mamba-YOLO,它基于SSM,为YOLO系列在目标检测方面建立了新的基准。实验结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力,在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。
马上科普尚尚
2024/07/05
3.4K0
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
自今年 2 月 YOLOv9 发布之后, YOLO(You Only Look Once)系列的接力棒传到了清华大学研究人员的手上。
机器之心
2024/06/04
5160
清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
推荐阅读
革新突破!YOLOv12携注意力机制震撼登场,实时检测快如闪电!
4300
YOLO12强势来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!
8030
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
4880
YOLOv12:以注意力为中心的实时目标检测器
4281
YOLOv12源码分析+如何训练自己的数据集(NEU-DET缺陷检测为案列)
7692
YOLOv12涨点优化:IoU优化 | 一种新的Shape IoU,更加关注边界框本身的形状和尺度,对小目标检测也很友好
3490
YOLOv12优化:图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络(TBSN)架构 ,结合空间和通道自注意力
2170
YOLOv12优化:注意力魔改 | 新颖的多尺度卷积注意力(MSCA),即插即用,助力小目标检测
8020
YOLOv12架构深度解析:关键架构特征的细分
8020
YOLOv12优化:遥感去雾 | 新颖的双注意力块(DAB)
3490
YOLOv12优化:卷积魔改创新 | AAAI 2025 | 一种新颖的风车形卷积(PConv)符合微弱小目标的像素高斯空间分布,增强特征提取,显著增加接受野
5050
RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
2750
YOLO 系列目标检测大合集
4640
利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
1790
YOLOv10开源|清华用端到端YOLOv10在速度精度上都生吃YOLOv8和YOLOv9
3.7K0
YOLO论文分享(5): IHA-YOLO: 用于实时细胞检测的跨检测头注意力机制,ISBI 2025
2120
清华发布YOLOv10,真正实时端到端目标检测
8480
YOLOv10真正实时端到端目标检测(原理介绍+代码详见+结构框图)
15.3K0
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
3.4K0
清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
5160
相关推荐
革新突破!YOLOv12携注意力机制震撼登场,实时检测快如闪电!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档