文章/答案/技术大牛

发布

社区首页 >专栏 >SCC-YOLO：集成 SCConv 到YOLOv9，脑肿瘤检测mAP提升，代码开源！

SCC-YOLO：集成 SCConv 到YOLOv9，脑肿瘤检测mAP提升，代码开源！

未来先知

发布于 2025-04-04 09:33:49

1350

文章被收录于专栏：未来先知未来先知

脑肿瘤可能导致神经功能障碍、认知和心理状态的改变、颅内压升高以及癫痫发作，从而对人类生命和健康构成重大风险。YOLO（You Only Look Once）系列模型在医学影像目标检测方面展现出卓越的准确性。本文提出了一种新型的SCC-YOLO架构，通过将SCConv注意力机制集成到YOLOv9中。SCConv模块通过减少特征间的空间和通道冗余，重构了一个高效的卷积模块，从而增强了图像特征的学习。作者使用Br35H数据集和自制的脑肿瘤数据集（Brain_Tumor_Dataset）来研究将不同的注意力机制集成到YOLOv9模型对脑肿瘤图像检测的影响。实验结果表明，在Br35H数据集上，SCC-YOLO相较于YOLOv9在mAp50上提升了0.3%，而在自制的脑肿瘤数据集上，SCC-YOLO相较于YOLOv9提升了0.5%。SCC-YOLO在脑肿瘤检测中达到了最先进的性能。源代码可在以下链接获取：https://jihulab.com/healthcare-information-studio/SCC-YOLO/-/tree/master

一、引言

磁共振成像（MRI）是可视化大脑和识别肿瘤最有效的成像技术[1]。然而，由于脑肿瘤图像形态多样且边缘特征相对模糊[2]，通过磁共振成像（MRI）诊断脑肿瘤的过程对于临床医生来说既复杂又低效，导致误诊和漏诊的风险增加。研究行人已将机器学习技术应用于脑肿瘤图像的分割和分类[3-10]。在脑肿瘤的自动检测和辅助诊断中，相关研究行人应用了无监督学习[11]、卷积神经网络（CNN）[12]、深度堆叠自编码器（DSAE）[15]以及You Only Look Once（YOLO）[13]、[14-18]等技术。Maibam Mangalleibi Chanu等人将YOLOv3[19]模型应用于脑肿瘤的计算机辅助检测和分类，代表了YOLO系列模型在脑肿瘤检测中的重要研究[16]。Kang等人基于YOLOv8[20]创新性地提出了RCS-YOLO[17]和BGF-YOLO[18]模型，在Br35H数据集上实现了良好的准确率和速度[25]，展示了YOLO系列在脑肿瘤图像检测中的高度可行性。

YOLOv9[21]提出了可编程梯度信息（PGI）的概念，通过获取可靠的梯度信息来更新网络权重。这种方法解决了网络在特征提取和变换过程中遇到的信息丢失问题，在MS COCO数据集上实现了理想的准确性和速度。为了进一步提高YOLOv9模型的表现，研究行人将其原始网络结构中融入了各种注意力机制。胡玉康等人提出了FMSD模块（细粒度多尺度动态选择模块），该模块在细粒度多尺度特征图上应用了一种更有效的动态特征选择和融合方法，以及AGMF模块（自适应门控多分支聚焦融合模块），该模块利用多个并行分支来执行各个分支捕获的各种特征的互补融合。他们将这两个模块集成到YOLOv9中，开发了一种检测精度更高的新型目标检测器[22]。潘伟超等人提出了EAConv（高效注意力卷积）和EADown（高效注意力下采样），并基于这两个模块设计了一个轻量级模型EFA-YOLO（高效特征注意力YOLO）。在火灾检测应用中，其检测精度和推理速度得到了显著提升[23]。冯一帆等人提出了Hyper-Yolo，这是一个将图像特征从视觉模态转换为语义空间，并设计超图以实现位置和层级的交互，从而增强跨层特征整合和利用高阶特征相互关系的模型。该模型在COCO数据集上表现优异，并被证明是一种最先进的架构[24]。

本文提出了一种名为SCC-YOLO的新型模型，通过整合SCConv注意力机制，提升了YOLOv9的检测性能。本研究的贡献概述如下：

（1）作者创建了Brain_Tumor_Dataset数据集，包含9,900张分辨率为像素的RGB图像，其中训练集有7,920张图像，测试集有1,980张图像。数据集包含三种类型的标签，代表三种不同类型的脑肿瘤。

（2）作者将SCConv集成到原始YOLOv9结构的 Head ，以增强对脑肿瘤图像的特征学习能力。

（3）作者将SE注意力机制集成到原始YOLOv9结构的 Head ，以比较不同注意力机制对脑肿瘤检测的影响。

（4）据作者所知，这是首次将增强后的YOLOv9应用于脑肿瘤检测。

由Ahmed Hamada创建的数据集包含了803张带有标注脑肿瘤的MRI图像，分为501张训练图像、202张验证图像和101张测试图像。该数据集的结构旨在为脑肿瘤的检测和分类提供丰富的样本，支持相关研究和分析。

由于数据集规模较小，作者利用LabelImg工具创建了 Brain_Tumor_Dataset。该数据集包含9,900张图像，分辨率为的RGB图像，具有清晰的边界框标注和完整的图像，以及相应的标签txt文件。数据集包括三个标签，分别命名为Label0、Label1和Label2，代表三种不同的脑肿瘤类别。每张图像都标注了多个标签。训练集由7,920张图像和7,920个标签文件组成，测试集包括1,980张图像和1,980个标签文件，具体信息如表1所示。

表1. 数据集划分与现有的公共数据集相比，Brain_Tumor_Dataset具有更大的样本量，涵盖了多种肿瘤类型，这有利于提升分类性能。其图像分辨率适中，能够在减少计算成本的同时保留图像细节，使其适用于YOLO系列模型。此外，数据集中图像的完整性有助于避免因缺失或损坏图像而引起的训练问题，确保模型可以从高质量数据中学习。

图1展示了数据集的部分样本图像。

B. SCC-YOLO概述

SCC-YOLO是一种基于深度学习的目标检测算法，它结合了尺度不变性、快速检测和精确度。本文将对其核心概念、技术细节和性能特点进行详细介绍。SCC-YOLO的主要优势在于能够有效识别和定位不同尺度、不同形状的目标，同时保持较高的检测速度和准确率。通过引入尺度归一化、特征融合和位置回归等策略，SCC-YOLO在多个数据集上取得了优异的检测效果。

作者提出了SCC-YOLO，该模型将SCConv[26]模块引入了YOLOv9原始结构的 Head ，置于第37层。

该架构分为两个主要部分： Backbone 网络和 Head 网络，每个部分都包含一系列精心排列的层级，这些层级共同决定了其整体性能。

YOLOv9的核心主要关注特征提取，采用一系列卷积层、下采样操作和高级块结构。该架构从静音层开始，随后是一系列卷积层，这些卷积层逐步减小输入图像的空间维度。

第一层卷积层将输出尺寸减半，而后续层进一步对特征图进行下采样，直至P2/4和P3/8。

该主干网络采用多个RepNCSPELAN模块，这些模块通过结合残差连接和高效的通道管理来增强特征表示。具体来说，这些模块将特征维度从256增加到512，同时在计算效率和表达能力之间保持平衡。

平均卷积下采样（ADown）层被分散布置在 Backbone 网络中，以促进渐进式下采样，从而产生不同分辨率的特征图（P3/8、P4/16、P5/32）。这种层次结构对于检测不同尺度的物体至关重要。

YOLOv9架构的 Head 负责生成最终的检测输出。它融合了先进的模块结构和上采样技术，以细化主干提取的特征。

Head 以一个SPPELAN块开始，该块处理512维特征图，从而进一步增强了检测任务中的空间和上下文信息。

一系列上采样层被用于合并 Backbone 网络不同层次的特征。级联操作有效地将 Backbone 网络早期阶段的高分辨率特征与更深层次、语义更丰富的特征相结合，从而提高了定位和分类的性能。

Head 包含一个DualDDetect层，该层整合来自多个特征层（A3、A4、A5、P3、P4、P5）的信息，以生成鲁棒的目标检测预测。这种多尺度方法增强了网络检测不同尺寸物体的准确性。

此外，还集成了一个多层次可逆辅助分支，这有助于融合不同阶段的特征，增强了网络在多个尺度上利用上下文信息的能力。

Head 的一个重要创新是引入了SCConv模块，该模块通过应用空间通道卷积来增强特征聚焦并提升检测性能。该模块被巧妙地放置，以增强检测过程的有效性。

C. SCConv的集成

在YOLOv9网络 Head 第37层之后，作者集成了SCConv模块——这是一种即插即用的操作，它依次结合了空间重建单元（SRU）和通道重建单元（CRU），如图2所示。

在 Bottleneck 残差块的中间输入特征中，作者首先使用SRU操作推导出空间细化特征，随后应用CRU操作以获得通道细化特征。SCConv模块充分利用了特征中固有的空间和通道冗余，并无缝集成到YOLOv9架构中，有效减少了中间特征图之间的冗余，并提升了特征表示。

图3展示了SRU的架构。SRU通过利用加权指标有效地分离冗余特征，随后在空间维度上重建这些特征，以减轻冗余并增强特征表示。

CRU的架构如图4所示。CRU采用了一种策略，通过分割、转换和融合特征来减少通道维度的冗余，从而降低计算成本和存储需求。

D. 与SE注意力机制的对比

学术社区中广泛使用的Squeeze-and-Excitation（SE）注意力机制[27]旨在通过显著提高通道特征的表达能力来提升模型性能。该机制通过两个步骤自适应调整特征通道的权重：“压缩”和“激发”，从而突出重要特征并抑制不那么重要的特征。其实施过程包括全局平均池化以获取通道描述符，随后通过全连接层生成通道权重，最后将这些权重应用于原始特征图以调整每个通道的重要性。许多学者将SE注意力机制与YOLO系列模型结合应用于相关研究[28-35]。

然而，SE机制主要通过加权通道来增强特征图，从而忽略了空间维度中包含的信息。这种遗漏可能导致在处理具有复杂空间关系的特征时，关键空间上下文信息丢失。此外，SE模块的引入在每一层卷积之后增加了额外的计算步骤，包括全局平均池化、全连接层和激活函数，从而增加了计算负担。尽管SE机制在多种视觉任务中表现出强大的性能，但与其他更复杂的注意力机制相比，其有效性可能有所降低，尤其是在需要复杂特征交互的任务中，如医学成像中的目标检测。

在这项研究中，作者在原始YOLOv9网络第37层之后整合了SE注意力机制，同时确保实验设置与SCCYOLO中使用的设置保持一致。作者将这个新模型命名为SE-YOLOv9。

实验结果表明，在Br35H和脑肿瘤数据集上，SE-YOLOv9的性能指标均低于SCC-YOLO。这一发现表明，在医疗影像任务中，例如脑肿瘤辅助诊断，SCC-YOLO有效地整合了空间和通道信息，因此在性能上优于仅依赖SE注意力机制的模型。

第11.1节实验细节

CC-YOLO在NVIDIA GeForce RTX 3090显卡上进行了训练和测试。如表2所示，作者基于YOLOv9c实现了所提出的方法。SCC-YOLO及其他对比方法的训练超参数与YOLOv9c相同。在Br35H数据集上，训练批次大小设置为4，训练阶段的迭代次数为120次。优化器采用随机梯度下降法，初始和最终学习率为0.01，动量为0.937。在Brain_Tumor数据集上，由于数据集的数据量较大，训练批次大小同样设置为4，但训练阶段的迭代次数增加到400次。优化器再次使用随机梯度下降法，初始和最终学习率仍为0.01，动量为0.937。

评估指标

本文选取了精确率、召回率、mAP50以及mAP50:95等参数、层和梯度作为评估模型性能的指标，以研究该模型的优缺点。

在此背景下，TP代表被准确识别为正样本的正样本数量；而FP代表被错误分类为正样本的负样本数量；最后，PN代表被错误分类为负样本的正样本数量。

mAP50表示模型在检测到的正样本中，当交并比（IoU）≥0.5时的平均精度，即精度-召回率（PR）曲线下平均值的平均值。相比之下，mAP50:95是指在多个IoU阈值下计算的平均精度，具体为从0.5到0.95以0.05为增量平均这些值，总共得到10个阈值。mAP50:95提供了一种更严格的性能评估标准，能够更全面地反映模型在不同检测难度水平上的表现，适用于需要高精度的应用场景。

参数是神经网络内部从训练数据中学习得到的变量。一个模型中的参数总数可以通过对所有层的权重和偏置求和来计算。参数数量越多通常意味着模型越复杂，能够捕捉数据中的更复杂模式，但也存在过拟合的风险。

层是神经网络的基本构建模块。每一层包含一组神经元，这些神经元处理输入并将输出传递给后续层。层的排列和类型定义了神经网络的架构，影响了其性能、容量以及从数据中学习的能力。

梯度对于神经网络训练过程至关重要，尤其是在随机梯度下降（SGD）等优化算法的背景下。梯度是一个向量，表示损失函数相对于模型中每个参数的偏导数。

IV. 实验结果与讨论分析 YOLOv9实现了0.954的mAP50得分，0.751的mAP50:95得分，0.926的精确度和0.939的召回率。SEYOLOv9的性能略低，其mAP50得分为0.931，mAP50:95得分为0.697。其精确度和召回率分别为0.906和0.914，表明与YOLOv9相比，检测能力有所下降。作者提出的SCC-YOLO（ ours）模型在性能上优于其他模型，实现了0.957的mAP50得分和0.735的mAP50:95得分。精确度为0.922，召回率为0.943，显示出平衡的性能，在mAP50上略胜一筹。

总体而言，实验结果表明，SCC-YOLO模型在Br35H数据集上表现出最佳性能，紧随其后的是YOLOv9，而SE-YOLOv9在所有指标上的效能相对较低。

表4总结了在脑肿瘤数据集上评估的三种模型的性能指标。这些指标包括在交并比（IoU）阈值为0.50时的平均精度均值（mAP50）、在IoU阈值从0.50到0.95的平均精度均值（mAP50:95）、准确率和召回率。

YOLOv9实现了0.855的mAP50分数，这成为了一个比较的基准。其mAP50:95分数为0.631，精度为0.938，召回率为0.783。该模型表现出强大的性能，尤其是在精度方面。SEYOLOv9的mAP50分数为0.828，比YOLOv9降低了0.027。SE-YOLOv9的mAP50:95分数为0.585，精度为0.906，召回率为0.748。mAP50和其他指标的降低表明，相对于YOLOv9，其检测能力有所下降。作者提出的SCC-YOLO模型在mAP50分数上优于SE-YOLOv9，达到了0.860，这表明比YOLOv9提高了0.005，比SE-YOLOv9有显著的0.032优势。mAP50:95分数为0.629，精度和召回率分别为0.929和0.781。这一性能突出了SCC-YOLO模型在实现更高检测精度方面的有效性。

总结来说，实验结果表明，SCC-YOLO实现了最高的mAP50分数，达到0.860，其次是YOLOv9，分数为0.855，SE-YOLOv9的分数为0.828。观察到的mAP50分数差异反映了每个模型在数据集中检测脑瘤的相对优势和劣势，其中SCC-YOLO相较于SE-YOLOv9提供了显著的改进。

YOLOv9的特征是包含总计5,099,995,90个参数，由962层组成，使用了5,099,995,58个梯度。该架构被用作与其他模型进行比较的 Baseline 。SE-YOLOv9的参数数量更高，达到6,079,875,9个，由934层构成，产生了6,079,872,7个梯度。作者提出的SCC-YOLO（ ours）的参数总数为5,808,055,0个，包含977层和5,808,051,8个梯度。这种配置在参数数量和层数之间取得了平衡，暗示着可能是一个优化过的架构。总的来说，比较结果显示，尽管SE-YOLOv9拥有最多的参数，SCC-YOLO在保持具有竞争力的参数数量的同时，也增加了层数。YOLOv9虽然参数最少，但展示了具有最高梯度数量的高效架构。这项分析为评估模型之间的架构复杂性和潜在的性能权衡提供了洞见。