YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力

原创

AI小怪兽

发布于 2025-03-20 13:30:36

29000

代码可运行

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

运行总次数：0

代码可运行

💡💡💡 提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。

💡💡💡如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；

💡💡💡亮点包括： 1. 提出了一种新的基于Transformer的盲点网络（TBSN）架构；2. 引入了知识蒸馏策略来提高计算效率；3. 在多个真实世界的图像去噪数据集上进行了广泛的实验，并且与当前最先进的SSID方法相比具有更好的性能；

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

《YOLOv12魔术师专栏》将从以下各个方向进行创新：

链接：

YOLOv12魔术师

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者提供本文windows下编译好的YOLOv12环境

定期向订阅者提供源码工程，配合博客使用。

订阅者可以申请发票，便于报销

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、轻量级网络设计、25年最新顶会改进思路、原创自研paper级创新等

🚀🚀🚀 本项目持续更新 | 更新完结保底≥80+ ，冲刺100+ 🚀🚀🚀

💡💡💡 2024年计算机视觉顶会创新点适用于Yolov5、Yolov7、Yolov8、Yolov9、Yolov10、Yolo11等各个Yolo系列，专栏文章提供每一步步骤和源码，轻松带你上手魔改网络！！！

💡💡💡重点：通过本专栏的阅读，后续你也可以设计魔改网络，在网络不同位置（Backbone、head、detect、loss等）进行魔改，实现创新！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLOv12介绍

论文：[2502.12524] YOLOv12: Attention-Centric Real-Time Object Detectors

摘要：

长期以来，提升YOLO框架的网络架构至关重要，但相关改进主要聚焦于基于CNN的优化，尽管注意力机制已被证实具备更卓越的建模能力。这种现状源于注意力模型在速度上始终无法与CNN模型相媲美。本研究提出了一种以注意力机制为核心的YOLO框架——YOLOv12，在保持与先前CNN模型相当速度的同时，充分释放了注意力机制的性能优势。

YOLOv12在保持具有竞争力的推理速度下，其准确率超越了所有主流实时目标检测器。具体而言，YOLOv12-N在T4 GPU上以1.64ms的推理延迟实现了40.6%的mAP，相较先进的YOLOv10-N/YOLOv11-N分别提升2.1%/1.2%的mAP，同时保持相近速度。该优势在其他模型规模上同样显著。相较于改进DETR的端到端实时检测器，YOLOv12也展现出优越性：例如YOLOv12-S以42%的速度优势超越RT-DETR-R18/RT-DETRv2-R18，仅需36%的计算量和45%的参数量。更多对比详见图1。

结构图如下：

本文旨在解决这些挑战，并进一步构建了一个以注意力为中心的YOLO框架，即YOLOv12。我们引入了三项关键改进。首先，我们提出了一个简单高效的区域注意力模块（A²），它以一种非常简单的方式在保持较大感受野的同时减少了注意力的计算复杂度，从而提高了速度。其次，我们引入了残差高效层聚合网络（R-ELAN），以应对注意力机制（尤其是大规模模型）引入的优化挑战。R-ELAN在原始ELAN的基础上引入了两项改进：（i）基于块的残差设计与缩放技术；（ii）重新设计的特征聚合方法。第三，我们在传统注意力机制的基础上进行了一些架构改进，以适应YOLO系统。我们升级了传统的注意力中心架构，包括：引入FlashAttention以解决注意力的内存访问问题，移除位置编码等设计以使模型更快速、更简洁，将MLP比率从4调整为1.2以平衡注意力机制和前馈网络之间的计算量，从而获得更好的性能，减少堆叠块的深度以促进优化，以及尽可能多地利用卷积操作来发挥其计算效率。

总之，YOLOv12的贡献可以概括为以下两点：1）它建立了一个以注意力为中心的、简单而高效的YOLO框架，通过方法创新和架构改进，打破了CNN模型在YOLO系列中的主导地位。2）YOLOv12在不依赖预训练等额外技术的情况下，实现了快速推理速度和更高的检测精度的最新成果，展现了其潜力。

1.1 Area Attention

YOLOv12设计了区域注意力模块（A2），将特征图划分为简单的垂直或水平区域，减少了注意力机制的计算复杂度，同时保持了较大的感受野。

核心源码如下：

代码位置ultralytics/nn/modules/block.py

1.2 A2C2f

A2C2f模块全称为“Area-Attention Enhanced Cross-Feature module”，是YOLOv12中提出的一种改进型特征提取模块，结合了区域注意力（Area-Attention）和残差连接，主要用于提升特征提取的效率和精度

A2C2f模块由以下关键部分组成：

cv1和cv2：两层1×1卷积，分别用于输入特征的降维和输出特征的升维。
ABlock模块：A2C2f的核心，包含区域注意力（Area-Attention）和MLP（多层感知机）层，用于快速特征提取和注意力机制的增强。
残差连接：可选的残差连接，用于稳定训练并增强特征的表达能力。

代码位置ultralytics/nn/modules/block.py

2.原理介绍

论文：https://arxiv.org/pdf/2404.07846

摘要：本文针对自监督图像去噪（SSID）中盲点网络（BSN）的网络架构，指出现有的基于卷积层的BSN存在局限性，而变形器（transformer）则具有潜在的克服卷积局限性的能力，并且在各种图像恢复任务中取得了成功。然而，变形器的注意力机制可能会违反盲点要求，因此限制了它们在SSID中的适用性。因此，本文提出了一种基于变形器的盲点网络（TBSN），通过分析和重新设计变形器操作符以满足盲点要求。具体来说，TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意层来增强网络能力。对于空间自注意力，我们应用精细的掩码来限制其感受野，从而模拟扩张卷积。对于通道自注意力，我们观察到在多尺度架构的深层中，当通道数大于空间大小时，它可能会泄漏盲点信息。为了消除这种影响，我们将通道分成几组，并分别执行通道注意力。此外，我们引入知识蒸馏策略，将TBSN蒸馏成更小的去噪器，以提高计算效率同时保持性能。在真实世界的图像去噪数据集上进行了广泛的实验，结果表明TBSN大大扩展了感受野，并展示了对抗最先进SSID方法的有利性能。代码和预训练模型将在https://github.com/nagejacob/TBSN上公开发布。

3.如何加入到YOLOv12

3.1新建ultralytics/nn/block/tsdn.py

核心源码：

class DilatedOCA(nn.Module):
    def __init__(self, dim, window_size, overlap_ratio, num_heads, dim_head, bias):
        super(DilatedOCA, self).__init__()
        self.num_spatial_heads = num_heads
        self.dim = dim
        self.window_size = window_size
        self.overlap_win_size = int(window_size * overlap_ratio) + window_size
        self.dim_head = dim_head
        self.inner_dim = self.dim_head * self.num_spatial_heads
        self.scale = self.dim_head**-0.5

        self.unfold = nn.Unfold(kernel_size=(self.overlap_win_size, self.overlap_win_size), stride=window_size, padding=(self.overlap_win_size-window_size)//2)
        self.qkv = nn.Conv2d(self.dim, self.inner_dim*3, kernel_size=1, bias=bias)
        self.project_out = nn.Conv2d(self.inner_dim, dim, kernel_size=1, bias=bias)
        self.rel_pos_emb = RelPosEmb(
            block_size = window_size,
            rel_size = window_size + (self.overlap_win_size - window_size),
            dim_head = self.dim_head
        )
        self.fixed_pos_emb = FixedPosEmb(window_size, self.overlap_win_size)
    def forward(self, x):
        b, c, h, w = x.shape
        qkv = self.qkv(x)
        qs, ks, vs = qkv.chunk(3, dim=1)

        # spatial attention
        qs = rearrange(qs, 'b c (h p1) (w p2) -> (b h w) (p1 p2) c', p1 = self.window_size, p2 = self.window_size)
        ks, vs = map(lambda t: self.unfold(t), (ks, vs))
        ks, vs = map(lambda t: rearrange(t, 'b (c j) i -> (b i) j c', c = self.inner_dim), (ks, vs))

        # print(f'qs.shape:{qs.shape}, ks.shape:{ks.shape}, vs.shape:{vs.shape}')
        #split heads
        qs, ks, vs = map(lambda t: rearrange(t, 'b n (head c) -> (b head) n c', head = self.num_spatial_heads), (qs, ks, vs))

        # attention
        qs = qs * self.scale
        spatial_attn = (qs @ ks.transpose(-2, -1))
        spatial_attn += self.rel_pos_emb(qs)
        spatial_attn += self.fixed_pos_emb()
        spatial_attn = spatial_attn.softmax(dim=-1)

        out = (spatial_attn @ vs)

        out = rearrange(out, '(b h w head) (p1 p2) c -> b (head c) (h p1) (w p2)', head = self.num_spatial_heads, h = h // self.window_size, w = w // self.window_size, p1 = self.window_size, p2 = self.window_size)

        # merge spatial and channel
        out = self.project_out(out)

        return out


class FeedForward(nn.Module):
    def __init__(self, dim, ffn_expansion_factor, bias):
        super(FeedForward, self).__init__()

        hidden_features = int(dim * ffn_expansion_factor)

        self.project_in = nn.Conv2d(dim, hidden_features, kernel_size=3, stride=1, dilation=2, padding=2, bias=bias)
        self.project_out = nn.Conv2d(hidden_features, dim, kernel_size=3, stride=1, dilation=2, padding=2, bias=bias)

    def forward(self, x):
        x = self.project_in(x)
        x = F.gelu(x)
        x = self.project_out(x)
        return x


class DTAB(nn.Module):
    def __init__(self, dim, window_size=4, overlap_ratio=0.5, num_channel_heads=4, num_spatial_heads=2, spatial_dim_head=16, ffn_expansion_factor=1, bias=False, LayerNorm_type='BiasFree'):
        super(DTAB, self).__init__()

        self.spatial_attn = DilatedOCA(dim, window_size, overlap_ratio, num_spatial_heads, spatial_dim_head, bias)
        self.channel_attn = DilatedMDTA(dim, num_channel_heads, bias)

        self.norm1 = LayerNorm(dim, LayerNorm_type)
        self.norm2 = LayerNorm(dim, LayerNorm_type)
        self.norm3 = LayerNorm(dim, LayerNorm_type)
        self.norm4 = LayerNorm(dim, LayerNorm_type)

        self.channel_ffn = FeedForward(dim, ffn_expansion_factor, bias)
        self.spatial_ffn = FeedForward(dim, ffn_expansion_factor, bias)


    def forward(self, x):
        x = x + self.channel_attn(self.norm1(x))
        x = x + self.channel_ffn(self.norm2(x))
        x = x + self.spatial_attn(self.norm3(x))
        x = x + self.spatial_ffn(self.norm4(x))
        return x

原文链接：

https://blog.csdn.net/m0_63774211/article/details/146339033

3.3 yolov12-A2C2f_DTAB.yaml

# YOLOv12 🚀, AGPL-3.0 license
# YOLOv12 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov12n.yaml' will call yolov12.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024] # summary: 465 layers, 2,603,056 parameters, 2,603,040 gradients, 6.7 GFLOPs
  s: [0.50, 0.50, 1024] # summary: 465 layers, 9,285,632 parameters, 9,285,616 gradients, 21.7 GFLOPs
  m: [0.50, 1.00, 512] # summary: 501 layers, 20,201,216 parameters, 20,201,200 gradients, 68.1 GFLOPs
  l: [1.00, 1.00, 512] # summary: 831 layers, 26,454,880 parameters, 26,454,864 gradients, 89.7 GFLOPs
  x: [1.00, 1.50, 512] # summary: 831 layers, 59,216,928 parameters, 59,216,912 gradients, 200.3 GFLOPs

# YOLO12n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2]] # 1-P2/4
  - [-1, 2, C3k2_DTAB,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2]] # 3-P3/8
  - [-1, 2, C3k2_DTAB,  [512, False, 0.25]]
  - [-1, 1, Conv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f_DTAB, [512, True, 4]]
  - [-1, 1, Conv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f_DTAB, [1024, True, 1]] # 8

# YOLO12n head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, A2C2f_DTAB, [512, False, -1]] # 11

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, A2C2f_DTAB, [256, False, -1]] # 14

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 11], 1, Concat, [1]] # cat head P4
  - [-1, 2, A2C2f_DTAB, [512, False, -1]] # 17

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 8], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2_DTAB, [1024, True]] # 20 (P5/32-large)

  - [[14, 17, 20], 1, Detect, [nc]] # Detect(P3, P4, P5)

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S12#AI进化论

登录后参与评论

0 条评论

热度