YOLOv12优化：注意力魔改 | 新颖的多尺度卷积注意力（MSCA），即插即用，助力小目标检测

原创

AI小怪兽

发布于 2025-03-10 14:25:45

1K00

代码可运行

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

运行总次数：0

代码可运行

💡💡💡本文改进：多尺度卷积注意力（MSCA），有效地提取上下文信息，新颖度高，创新十足。

💡💡💡本文改进：分别加入到YOLOv12的backbone、neck、detect，助力涨点

改进1结构图：

改进2结构图：

改进3结构图：

《YOLOv12魔术师专栏》将从以下各个方向进行创新：

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者提供本文windows下编译好的YOLOv12环境

定期向订阅者提供源码工程，配合博客使用。

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、轻量级网络设计、25年最新顶会改进思路、原创自研paper级创新等

🚀🚀🚀 本项目持续更新 | 更新完结保底≥80+ ，冲刺100+ 🚀🚀🚀

💡💡💡 2024年计算机视觉顶会创新点适用于Yolov5、Yolov7、Yolov8、Yolov9、Yolov10、Yolo11等各个Yolo系列，专栏文章提供每一步步骤和源码，轻松带你上手魔改网络！！！

💡💡💡重点：通过本专栏的阅读，后续你也可以设计魔改网络，在网络不同位置（Backbone、head、detect、loss等）进行魔改，实现创新！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLOv12介绍

论文：[2502.12524] YOLOv12: Attention-Centric Real-Time Object Detectors

摘要：

长期以来，提升YOLO框架的网络架构至关重要，但相关改进主要聚焦于基于CNN的优化，尽管注意力机制已被证实具备更卓越的建模能力。这种现状源于注意力模型在速度上始终无法与CNN模型相媲美。本研究提出了一种以注意力机制为核心的YOLO框架——YOLOv12，在保持与先前CNN模型相当速度的同时，充分释放了注意力机制的性能优势。

YOLOv12在保持具有竞争力的推理速度下，其准确率超越了所有主流实时目标检测器。具体而言，YOLOv12-N在T4 GPU上以1.64ms的推理延迟实现了40.6%的mAP，相较先进的YOLOv10-N/YOLOv11-N分别提升2.1%/1.2%的mAP，同时保持相近速度。该优势在其他模型规模上同样显著。相较于改进DETR的端到端实时检测器，YOLOv12也展现出优越性：例如YOLOv12-S以42%的速度优势超越RT-DETR-R18/RT-DETRv2-R18，仅需36%的计算量和45%的参数量。更多对比详见图1。

结构图如下：

本文旨在解决这些挑战，并进一步构建了一个以注意力为中心的YOLO框架，即YOLOv12。我们引入了三项关键改进。首先，我们提出了一个简单高效的区域注意力模块（A²），它以一种非常简单的方式在保持较大感受野的同时减少了注意力的计算复杂度，从而提高了速度。其次，我们引入了残差高效层聚合网络（R-ELAN），以应对注意力机制（尤其是大规模模型）引入的优化挑战。R-ELAN在原始ELAN的基础上引入了两项改进：（i）基于块的残差设计与缩放技术；（ii）重新设计的特征聚合方法。第三，我们在传统注意力机制的基础上进行了一些架构改进，以适应YOLO系统。我们升级了传统的注意力中心架构，包括：引入FlashAttention以解决注意力的内存访问问题，移除位置编码等设计以使模型更快速、更简洁，将MLP比率从4调整为1.2以平衡注意力机制和前馈网络之间的计算量，从而获得更好的性能，减少堆叠块的深度以促进优化，以及尽可能多地利用卷积操作来发挥其计算效率。

总之，YOLOv12的贡献可以概括为以下两点：1）它建立了一个以注意力为中心的、简单而高效的YOLO框架，通过方法创新和架构改进，打破了CNN模型在YOLO系列中的主导地位。2）YOLOv12在不依赖预训练等额外技术的情况下，实现了快速推理速度和更高的检测精度的最新成果，展现了其潜力。

1.1 Area Attention

YOLOv12设计了区域注意力模块（A2），将特征图划分为简单的垂直或水平区域，减少了注意力机制的计算复杂度，同时保持了较大的感受野。

核心源码如下：

代码位置ultralytics/nn/modules/block.py

1.2 A2C2f

A2C2f模块全称为“Area-Attention Enhanced Cross-Feature module”，是YOLOv12中提出的一种改进型特征提取模块，结合了区域注意力（Area-Attention）和残差连接，主要用于提升特征提取的效率和精度

A2C2f模块由以下关键部分组成：

cv1和cv2：两层1×1卷积，分别用于输入特征的降维和输出特征的升维。
ABlock模块：A2C2f的核心，包含区域注意力（Area-Attention）和MLP（多层感知机）层，用于快速特征提取和注意力机制的增强。
残差连接：可选的残差连接，用于稳定训练并增强特征的表达能力。

代码位置ultralytics/nn/modules/block.py

2.MSCAAttention介绍

论文：https://arxiv.org/pdf/2209.08575.pdf

摘要：介绍了一种用于语义分割的简单卷积网络体系结构SegNeXt。由于在编码空间信息时自我注意的效率，最近基于Transformer的模型已主导语义分割领域。在本文中，我们证明了卷积注意比Transformer中的自注意机制更有效地编码上下文信息。本文对已有成功分割方案进行了重审视并发现了几个有助于性能提升的关键成分，进而促使我们设计了一种新型的卷积注意力架构方案SegNeXt。在没有任何花哨的成分下，我们的SegNeXt显着改善了以前在流行基准测试 (包括ADE20K，Cityscapes，COCO-Stuff，Pascal VOC，Pascal Context和iSAID) 上最先进的方法的性能。值得注意的是，SegNeXt的性能优于EfficientNet-L2 w/ NAS-FPN，并且仅使用其1/10参数在Pascal VOC 2012测试一下排行榜上实现90.6% mIoU。与ad20k数据集上具有相同或更少计算的最新方法相比，SegNeXt平均实现了约2.0% mIoU改进。

设计了一种新的多尺度卷积注意（MSCA）模块。如图2 (a)所示，MSCA包含三个部分：深度卷积聚合局部信息，多分支深度条卷积捕获多尺度上下文，以及1×1卷积建模不同通道之间的关系。

3.MSCAAttention引入到YOLOv12

3.1新建ultralytics/nn/attention/MSCA.py

######################  MSCAAttention ####     START   by  AI&CV  ###############################


import torch
import torch.nn as nn
from torch.nn import functional as F
from ultralytics.nn.modules.conv import Conv

class MSCAAttention(nn.Module):
    # SegNext NeurIPS 2022
    # https://github.com/Visual-Attention-Network/SegNeXt/tree/main
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.conv0_1 = nn.Conv2d(dim, dim, (1, 7), padding=(0, 3), groups=dim)
        self.conv0_2 = nn.Conv2d(dim, dim, (7, 1), padding=(3, 0), groups=dim)

        self.conv1_1 = nn.Conv2d(dim, dim, (1, 11), padding=(0, 5), groups=dim)
        self.conv1_2 = nn.Conv2d(dim, dim, (11, 1), padding=(5, 0), groups=dim)

        self.conv2_1 = nn.Conv2d(dim, dim, (1, 21), padding=(0, 10), groups=dim)
        self.conv2_2 = nn.Conv2d(dim, dim, (21, 1), padding=(10, 0), groups=dim)
        self.conv3 = nn.Conv2d(dim, dim, 1)

    def forward(self, x):
        u = x.clone()
        attn = self.conv0(x)

        attn_0 = self.conv0_1(attn)
        attn_0 = self.conv0_2(attn_0)

        attn_1 = self.conv1_1(attn)
        attn_1 = self.conv1_2(attn_1)

        attn_2 = self.conv2_1(attn)
        attn_2 = self.conv2_2(attn_2)
        attn = attn + attn_0 + attn_1 + attn_2

        attn = self.conv3(attn)

        return attn * u



###################### MSCAAttention  ####     end   by  AI&CV  ###############################

3.2 修改tasks.py

1)首先进行引用定义

 from ultralytics.nn.attention.MSCA import MSCAAttention

2）修改def parse_model(d, ch, verbose=True): # model_dict, input_channels(3)

只需要在你源码基础上加入MSCAAttention（切勿直接复制过去）

        elif m is AIFI:
            args = [ch[f], *args]
        ###### attention     ######
        elif m is MSCAAttention:
            c2 = ch[f]
            args = [c2, *args]
        ###### attention     ######

3.3 yaml修改

提供多种 MSCAAttention修改方式，分别加在网络不同位置，总有一种适合你的数据集

3.3.1 yolov12-MSCA1.yaml

# YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs

# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8
  - [-1, 1, MSCAAttention, []] # 9

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f, [512, False, -1]] # 12

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f, [256, False, -1]] # 15

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f, [512, False, -1]] # 18

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2, [1024, True]] # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]] # Detect(P3, P4, P5)

3.3.2 yolov12-MSCA2.yaml

neck和head结合加入注意力

添加图片注释，不超过 140 字（可选）

  # YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs

# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f, [512, False, -1]] # 11

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f, [256, False, -1]] # 14

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 11], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f, [512, False, -1]] # 17

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 8], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2, [1024, True]] # 20 (P5/32-large)
  
  - [14, 1, MSCAAttention, []] # 21
  - [17, 1, MSCAAttention, []] # 22
  - [20, 1, MSCAAttention, []] # 23


  - [[21, 22, 23], 1, Detect, [nc]] # Detect(P3, P4, P5)

3.3.3 yolov12-MSCA3.yaml

# YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs

# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f, [512, False, -1]] # 11

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f, [256, False, -1]] # 14
  - [-1, 1, MSCAAttention, []] # 15

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 11], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f, [512, False, -1]] # 18
  - [-1, 1, MSCAAttention, []] # 19

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 8], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2, [1024, True]] # 22 (P5/32-large)
  - [-1, 1, MSCAAttention, []] # 23

  - [[15, 19, 23], 1, Detect, [nc]] # Detect(P3, P4, P5)

4.结论

不同的网络修改在不同数据集表现存在不一致的现象，建议同个改进点多多尝试。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

#yolov12

登录后参与评论

0 条评论

热度