💡💡💡创新点:提出了一种具有切片操作的SimAM注意力,增强小目标特征提取能力 + 基于内容引导注意力(CGA)的混合融合方案
💡💡💡全新原创升级 :一种基于内容引导注意力(CGA)的混合融合,实现暴力涨点 | IEEE TIP 2024 浙大
💡💡💡涨点情况:NEU-DET缺陷检测中,原始mAP50为0.768,一种具有切片操作的SimAM注意力的内容引导注意力(CGA)的混合融合方案为mAP50为0.774
💡💡💡如何跟YOLO11结合:将backbone和neck的特征融合,改进结构图如下
💡💡💡适用场景:红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景
💡💡💡适用任务:所有改进点适用【检测】、【分割】、【pose】、【分类】等
💡💡💡全网独家首发创新,【自研多个自研模块】,【多创新点组合适合paper 】!!!
Ultralytics YOLO11是一款尖端的、最先进的模型,它在之前YOLO版本成功的基础上进行了构建,并引入了新功能和改进,以进一步提升性能和灵活性。YOLO11设计快速、准确且易于使用,使其成为各种物体检测和跟踪、实例分割、图像分类以及姿态估计任务的绝佳选择。
结构图如下:
C3k2,结构图如下
C3k2,继承自类C2f,其中通过c3k设置False或者Ture来决定选择使用C3k还是Bottleneck
实现代码ultralytics/nn/modules/block.py
借鉴V10 PSA结构,实现了C2PSA和C2fPSA,最终选择了基于C2的C2PSA(可能涨点更好?)
实现代码ultralytics/nn/modules/block.py
分类检测头引入了DWConv(更加轻量级,为后续二次创新提供了改进点),结构图如下(和V8的区别):
实现代码ultralytics/nn/modules/head.py
直接搬运v8的就能使用
位置如下default.yaml
import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLO
if __name__ == '__main__':
model = YOLO('ultralytics/cfg/models/11/yolo11-EMA_attention.yaml')
#model.load('yolov8n.pt') # loading pretrain weights
model.train(data='data/NEU-DET.yaml',
cache=False,
imgsz=640,
epochs=200,
batch=8,
close_mosaic=10,
device='0',
optimizer='SGD', # using SGD
project='runs/train',
name='exp',
)
YOLO11n summary (fused): 238 layers, 2,583,322 parameters, 0 gradients, 6.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 21/21 [00:07<00:00, 2.93it/s]
all 324 747 0.765 0.679 0.768 0.433
crazing 47 104 0.678 0.337 0.508 0.22
inclusion 71 190 0.775 0.705 0.79 0.398
patches 59 149 0.808 0.859 0.927 0.636
pitted_surface 61 93 0.81 0.667 0.779 0.483
rolled-in_scale 56 117 0.684 0.593 0.67 0.317
scratches 54 94 0.833 0.915 0.934 0.544
摘要:SimAM是一个无神经网络的特征增强模块,具有轻量级的优点,且在提升识别性能方面有潜力,基于此我们设计了新模块sws,之所以加入切片操作是因为SimAM计算整张特征图的像素差平均值时加权可能会忽略小目标的重要性,小目标在航拍图像中占比比较小,与整体平均值相比可能和背景信息相似,导致加权增强较弱,进而使得SimAM对小目标的增强能力较差。
因此我们引入了切片操作,当特征图被切成不同的块后,大目标由于其纹理特征明显会影响所在块的平均值,导致其获得的额外加权减少,而合并特征图后,大目标依然可以保持高可识别度甚至获得进一步增强;而小目标的特征与局部平均值差距更大,从而获得更多加权,小目标特征得到增强,即sws模块保证了大、小目标都获得了公正的关注和增强。
性能如下:
论文: https://arxiv.org/abs/2301.04805
摘要: 单幅图像去雾是一个具有挑战性的不适定问题,它需要从观测到的模糊图像中估计出潜在的无雾图像。现有的一些基于深度学习的方法致力于通过增加卷积的深度或宽度来提高模型的性能。卷积神经网络(CNN)结构的学习能力尚未得到充分的研究。本文提出了一种由细节增强卷积(DEConv)和内容引导注意(CGA)组成的细节增强注意块(DEAB)来增强特征学习,从而提高去雾性能。具体来说,DEConv将先验信息整合到正卷积层中,增强了表示和泛化能力。然后,通过使用重新参数化技术,将DEConv等效地转换为没有额外参数和计算成本的普通卷积。通过为每个信道分配唯一的空间重要性映射(SIM), CGA可以获得更多编码在特征中的有用信息。此外,提出了一种基于cgaba的混合融合方案,可以有效地融合特征并辅助梯度流。通过结合上述组件,我们提出了用于恢复高质量无雾图像的细节增强注意力网络(DEA-Net)。大量的实验结果证明了我们的DEA-Net的有效性,通过仅使用3.653 M参数将PSNR指数提高到41 dB以上,优于最先进的(SOTA)方法。
图2所示。我们提出的细节增强注意力网络(DEA-Net)的整体架构是一个三层编码器-解码器结构。DEA-Net包含三个部分:编码器部分、特征变换部分和解码器部分。我们在特征转换部分部署细节增强注意块(deab),在其余部分部署细节增强块(deb)。
图2 (d)显示了提出的基于cga的混合融合方案的细节。核心部分是我们选择使用CGA来计算特征调制的空间权重。将编码器部分的低级特征和相应的高级特征输入到CGA中计算权重,然后采用加权求和的方法进行组合。我们还通过跳跃连接增加输入特征,以缓解梯度消失问题,简化学习过程。最后,对融合后的特征进行1 × 1卷积层的投影,得到最终的特征(即Ffuse)。
图6所示。内容引导注意(CGA)图。CGA是一个从粗到精的过程:首先生成SIMs的粗版本(即Wcoa∈RC×H×W),然后在输入特征的引导下对每个通道进行细化。
我们提出了一种新的注意力机制,即内容引导注意力(CGA),以一种从粗到精的方式生成特定频道的SIMs。CGA通过输入特征引导SIM的生成,为每个通道分配唯一的SIM,使模型参加每个通道的重要区域。因此,可以强调特征中编码的更多有用信息,从而有效地提高性能。此外,提出了一种基于cgaba的混合融合方案,将编码器部分的低级特征与相应的高级特征有效融合。
详见:YOLO11原创自研:特征融合创新 | 一种具有切片操作的SimAM注意力的内容引导注意力(CGA)的混合融合方案-CSDN博客
改进结构图如下:
原始mAP50为0.768,改进1结构图为mAP50为0.774
YOLO11-CGAFusion_SWS summary (fused): 298 layers, 2,823,355 parameters, 0 gradients, 6.6 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 11/11 [00:08<00:00, 1.26it/s]
all 324 747 0.748 0.678 0.774 0.412
crazing 47 104 0.688 0.308 0.489 0.212
inclusion 71 190 0.752 0.674 0.774 0.403
patches 59 149 0.811 0.906 0.94 0.642
pitted_surface 61 93 0.76 0.677 0.794 0.501
rolled-in_scale 56 117 0.692 0.641 0.733 0.356
scratches 54 94 0.786 0.862 0.915 0.36
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。