YOLOv13改进：注意力机制 | EMA：基于跨空间学习的高效多尺度注意力，效果优于ECA、CBAM、CA

原创

AI小怪兽

发布于 2025-07-03 08:49:04

1.2K0

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

💡💡💡本文改进内容：加入EMA注意力，一种基于跨空间学习的高效多尺度注意力，效果优于ECA、CBAM、CA等经典注意力。

💡💡💡本文改进：分别加入到YOLO11的backbone、neck、detect，助力涨点

《YOLOv13魔术师专栏》将从以下各个方向进行创新：

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者通过添加WX: AI_CV_0624，入群沟通，提供改进结构图等一系列定制化服务。

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLOv13介绍

论文：[2506.17733] YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

摘要—YOLO 系列模型因其卓越的准确性和计算效率在实时目标检测领域占据主导地位。然而，无论是 YOLO11 及更早版本的卷积架构，还是 YOLOv12 引入的基于区域的自注意力机制，都仅限于局部信息聚合和成对相关性建模，缺乏捕捉全局多对多高阶相关性的能力，这限制了在复杂场景下的检测性能。本文提出了一种准确且轻量化的 YOLOv13 目标检测器。为应对上述挑战，我们提出了一种基于超图的自适应相关性增强（HyperACE）机制，通过超图计算自适应地利用潜在的高阶相关性，克服了以往方法仅基于成对相关性建模的限制，实现了高效的全局跨位置和跨尺度特征融合与增强。随后，我们基于 HyperACE 提出了全链路聚合与分配（FullPAD）范式，通过将相关性增强特征分配到整个网络，有效实现了全网的细粒度信息流和表征协同。最后，我们提出用深度可分离卷积代替常规的大核卷积，并设计了一系列块结构，在不牺牲性能的前提下显著降低了参数量和计算复杂度。我们在广泛使用的 MS COCO 基准测试上进行了大量实验，结果表明，我们的方法在参数更少、浮点运算量更少的情况下达到了最先进性能。具体而言，我们的 YOLOv13-N 相比 YOLO11-N 提升了 3.0% 的 mAP，相比 YOLOv12-N 提升了 1.5% 的 mAP。

以往的 YOLO 系列遵循 “骨干网络 → 颈部网络 → 检测头” 的计算范式，这本质上限定了信息流的充分传输。相比之下，我们的模型通过超图自适应关联增强（HyperACE）机制，实现全链路特征聚合与分配（FullPAD），从而增强传统的 YOLO 架构。因此，我们提出的方法在整个网络中实现了细粒度的信息流和表征协同，能够改善梯度传播并显著提升检测性能。具体而言，如图 2 所示，我们的 YOLOv13 模型首先使用类似以往工作的骨干网络提取多尺度特征图 B1、B2、B3、B4、B5，但其中的大核卷积被我们提出的轻量化 DS-C3k2 模块取代。然后，与传统 YOLO 方法直接将 B3、B4 和 B5 输入颈部网络不同，我们的方法将这些特征收集并传递到提出的 HyperACE 模块中，实现跨尺度跨位置特征的高阶关联自适应建模和特征增强。随后，我们的 FullPAD 范式利用三个独立通道，将关联增强后的特征分别分配到骨干网络与颈部网络的连接处、颈部网络的内部层以及颈部网络与检测头的连接处，以优化信息流。最后，颈部网络的输出特征图被传递到检测头中，实现多尺度目标检测。

ultralytics/cfg/models/v13/yolov13.yaml

 nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, DSC3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, DSC3k2,  [512, False, 0.25]]
  - [-1, 1, DSConv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DSConv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 9, 1, DownsampleConv, []]
  - [[6, 9], 1, FullPAD_Tunnel, []]  #12     
  - [[4, 10], 1, FullPAD_Tunnel, []]  #13    
  - [[8, 11], 1, FullPAD_Tunnel, []] #14 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 12], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, DSC3k2, [512, True]] # 17
  - [[-1, 9], 1, FullPAD_Tunnel, []]  #18

  - [17, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, DSC3k2, [256, True]] # 21
  - [10, 1, Conv, [256, 1, 1]]
  - [[21, 22], 1, FullPAD_Tunnel, []]  #23
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 18], 1, Concat, [1]] # cat head P4
  - [-1, 2, DSC3k2, [512, True]] # 26
  - [[-1, 9], 1, FullPAD_Tunnel, []]  

  - [26, 1, Conv, [512, 3, 2]]
  - [[-1, 14], 1, Concat, [1]] # cat head P5
  - [-1, 2, DSC3k2, [1024,True]] # 30 (P5/32-large)
  - [[-1, 11], 1, FullPAD_Tunnel, []]  
  
  - [[23, 27, 31], 1, Detect, [nc]] # Detect(P3, P4, P5)

1.1 HyperACE

超图自适应相关性增强机制 HyperACE

超图理论借鉴与创新 ：借鉴超图理论，将多尺度特征图的像素视为超图顶点，不同的是，传统超图方法依赖手工设定参数构建超边，而 HyperACE 设计了可学习的超边生成模块，能自适应地学习并构建超边，动态探索不同特征顶点间的潜在关联。
超图卷积操作 ：在生成自适应超边后，通过超图卷积操作进行特征聚合与增强。每条超边先从其连接的所有顶点处聚合信息形成高阶特征，再将这些高阶特征传播回各个顶点，更新与增强顶点特征，从而实现高效地跨位置和跨尺度的特征融合与增强，强化不同尺度特征间的语义关联，对小目标和密集目标检测效果显著。

代码位置ultralytics/nn/modules/block.py

1.2 FullPAD_Tunnel

全流程聚合 - 分发范式 FullPAD

多通道特征传递 ：打破传统的 “骨干→颈部→头部” 单向计算范式，通过三条独立通路传递特征，即主干 - 颈部连接层、颈部内部层、颈部 - 头部连接层，将 HyperACE 聚合后的多尺度特征，通过这些 “隧道” 分发回网络的不同位置，实现细粒度信息流与全流程表征协同。
改善梯度传播 ：该范式有效解决了梯度消失或爆炸问题，显着改善了梯度传播效率，从而提升模型整体的检测性能，使模型在复杂场景下能够更好地捕捉目标特征，提高检测的准确性和稳定性。

代码位置ultralytics/nn/modules/block.py

1.3 DSC3k2

基于深度可分离卷积的轻量化模块

模块创新与替代 ：采用深度可分离卷积构建了 DSConv、DS-Bottleneck、DS-C3k 等模块，替代传统的大核卷积。例如使用 DS-C3k2 模块作为轻量化的骨干网络提取多尺度特征，在保持感受野的同时，大幅降低了参数量与计算量，提高了模型的计算效率。
性能与效率平衡 ：在几乎不牺牲性能的前提下，显著减少了模型的参数量和计算复杂度，使得 YOLOv13 能够在保持较高检测精度的同时，具备更快的推理速度，适合实时目标检测应用场景，降低了模型的部署难度和资源消耗。

代码位置ultralytics/nn/modules/block.py

2. EMA注意力介绍

论文：[2305.13563v1] Efficient Multi-Scale Attention Module with Cross-Spatial Learning

通过通道降维来建模跨通道关系可能会给提取深度视觉表示带来副作用。本文提出了一种新的高效的多尺度注意力(EMA)模块。以保留每个通道上的信息和降低计算开销为目标，将部分通道重塑为批量维度，并将通道维度分组为多个子特征，使空间语义特征在每个特征组中均匀分布。

提出了一种新的无需降维的高效多尺度注意力(efficient multi-scale attention, EMA)。请注意，这里只有两个卷积核将分别放置在并行子网络中。其中一个并行子网络是一个1x1卷积核，以与CA相同的方式处理，另一个是一个3x3卷积核。为了证明所提出的EMA的通用性，详细的实验在第4节中给出，包括在CIFAR-100、ImageNet-1k、COCO和VisDrone2019基准上的结果。图1给出了图像分类和目标检测任务的实验结果。我们的主要贡献如下:

本文提出了一种新的跨空间学习方法，并设计了一个多尺度并行子网络来建立短和长依赖关系。 1)我们考虑一种通用方法，将部分通道维度重塑为批量维度，以避免通过通用卷积进行某种形式的降维。 2)除了在不进行通道降维的情况下在每个并行子网络中构建局部的跨通道交互外，我们还通过跨空间学习方法融合两个并行子网络的输出特征图。 3)与CBAM、NAM[16]、SA、ECA和CA相比，EMA不仅取得了更好的结果，而且在所需参数方面效率更高。

3.EMA如何加入到YOLO11

3.1新建ultralytics/nn/attention/EMA.py

 ######################  EMA_attention  ####     START   by  AI&CV  ###############################
import torch
import torch.nn as nn

class EMA_attention(nn.Module):
    def __init__(self, channels, factor=8):
        super(EMA_attention, self).__init__()
        self.groups = factor
        assert channels // self.groups > 0
        self.softmax = nn.Softmax(-1)
        self.agp = nn.AdaptiveAvgPool2d((1, 1))
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))
        self.gn = nn.GroupNorm(channels // self.groups, channels // self.groups)
        self.conv1x1 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=1, stride=1, padding=0)
        self.conv3x3 = nn.Conv2d(channels // self.groups, channels // self.groups, kernel_size=3, stride=1, padding=1)
 
    def forward(self, x):
        b, c, h, w = x.size()
        group_x = x.reshape(b * self.groups, -1, h, w)  # b*g,c//g,h,w
        x_h = self.pool_h(group_x)
        x_w = self.pool_w(group_x).permute(0, 1, 3, 2)
        hw = self.conv1x1(torch.cat([x_h, x_w], dim=2))
        x_h, x_w = torch.split(hw, [h, w], dim=2)
        x1 = self.gn(group_x * x_h.sigmoid() * x_w.permute(0, 1, 3, 2).sigmoid())
        x2 = self.conv3x3(group_x)
        x11 = self.softmax(self.agp(x1).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
        x12 = x2.reshape(b * self.groups, c // self.groups, -1)  # b*g, c//g, hw
        x21 = self.softmax(self.agp(x2).reshape(b * self.groups, -1, 1).permute(0, 2, 1))
        x22 = x1.reshape(b * self.groups, c // self.groups, -1)  # b*g, c//g, hw
        weights = (torch.matmul(x11, x12) + torch.matmul(x21, x22)).reshape(b * self.groups, 1, h, w)
        return (group_x * weights.sigmoid()).reshape(b, c, h, w)
 
 
######################  EMA_attention  ####     END   by  AI&CV  ###############################

3.2 修改tasks.py

源码：

https://blog.csdn.net/m0_63774211/article/details/149067804

3.3 yaml修改

提供多种 EMA_attention修改方式，分别加在网络不同位置，总有一种适合你的数据集

3.3.1 yolov13-EMA_attention.yaml

具体结构图待更新

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, DSC3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, DSC3k2,  [512, False, 0.25]]
  - [-1, 1, DSConv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DSConv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8
  - [-1, 1, EMA_attention, [1024]] # 9

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 10, 1, DownsampleConv, []]
  - [[6, 10], 1, FullPAD_Tunnel, []]  #13     
  - [[4, 11], 1, FullPAD_Tunnel, []]  #14    
  - [[9, 12], 1, FullPAD_Tunnel, []] #15 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, DSC3k2, [512, True]] # 18
  - [[-1, 10], 1, FullPAD_Tunnel, []]  #19

  - [18, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 14], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, DSC3k2, [256, True]] # 22
  - [11, 1, Conv, [256, 1, 1]]
  - [[22, 23], 1, FullPAD_Tunnel, []]  #24
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 19], 1, Concat, [1]] # cat head P4
  - [-1, 2, DSC3k2, [512, True]] # 27
  - [[-1, 10], 1, FullPAD_Tunnel, []]  

  - [27, 1, Conv, [512, 3, 2]]
  - [[-1, 15], 1, Concat, [1]] # cat head P5
  - [-1, 2, DSC3k2, [1024,True]] # 31 (P5/32-large)
  - [[-1, 12], 1, FullPAD_Tunnel, []]  
  
  - [[24, 28, 32], 1, Detect, [nc]] # Detect(P3, P4, P5)

3.3.2 yolov13-EMA_attention1.yaml

具体结构图待更新

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, DSC3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, DSC3k2,  [512, False, 0.25]]
  - [-1, 1, DSConv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DSConv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 9, 1, DownsampleConv, []]
  - [[6, 9], 1, FullPAD_Tunnel, []]  #12     
  - [[4, 10], 1, FullPAD_Tunnel, []]  #13    
  - [[8, 11], 1, FullPAD_Tunnel, []] #14 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 12], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, DSC3k2, [512, True]] # 17
  - [[-1, 9], 1, FullPAD_Tunnel, []]  #18

  - [17, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, DSC3k2, [256, True]] # 21
  - [10, 1, Conv, [256, 1, 1]]
  - [[21, 22], 1, FullPAD_Tunnel, []]  #23
  - [-1, 1, EMA_attention, [256]] # 24
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 18], 1, Concat, [1]] # cat head P4
  - [-1, 2, DSC3k2, [512, True]] # 27
  - [[-1, 9], 1, FullPAD_Tunnel, []]  
  - [-1, 1, EMA_attention, [512]] # 29

  - [27, 1, Conv, [512, 3, 2]]
  - [[-1, 14], 1, Concat, [1]] # cat head P5
  - [-1, 2, DSC3k2, [1024,True]] # 32 (P5/32-large)
  - [[-1, 11], 1, FullPAD_Tunnel, []] 
  - [-1, 1, EMA_attention, [1024]] # 34  
  
  - [[24, 29, 34], 1, Detect, [nc]] # Detect(P3, P4, P5)

3.3.3 yolov13-EMA_attention2.yaml

具体结构图待更新

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, DSC3k2,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, DSC3k2,  [512, False, 0.25]]
  - [-1, 1, DSConv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DSConv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 9, 1, DownsampleConv, []]
  - [[6, 9], 1, FullPAD_Tunnel, []]  #12     
  - [[4, 10], 1, FullPAD_Tunnel, []]  #13    
  - [[8, 11], 1, FullPAD_Tunnel, []] #14 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 12], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, DSC3k2, [512, True]] # 17
  - [[-1, 9], 1, FullPAD_Tunnel, []]  #18

  - [17, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, DSC3k2, [256, True]] # 21
  - [10, 1, Conv, [256, 1, 1]]
  - [[21, 22], 1, FullPAD_Tunnel, []]  #23
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 18], 1, Concat, [1]] # cat head P4
  - [-1, 2, DSC3k2, [512, True]] # 26
  - [[-1, 9], 1, FullPAD_Tunnel, []]  

  - [26, 1, Conv, [512, 3, 2]]
  - [[-1, 14], 1, Concat, [1]] # cat head P5
  - [-1, 2, DSC3k2, [1024,True]] # 30 (P5/32-large)
  - [[-1, 11], 1, FullPAD_Tunnel, []]  
  
  
  - [23, 1, EMA_attention, [256]] # 32
  - [27, 1, EMA_attention, [512]] # 33
  - [31, 1, EMA_attention, [1024]] # 34
  
  - [[32, 33, 34], 1, Detect, [nc]] # Detect(P3, P4, P5)

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#新手村

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#新手村

登录后参与评论

0 条评论

热度