前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SCC-YOLO:集成 SCConv 到YOLOv9,脑肿瘤检测mAP提升,代码开源!

SCC-YOLO:集成 SCConv 到YOLOv9,脑肿瘤检测mAP提升,代码开源!

作者头像
未来先知
发布于 2025-04-04 09:33:49
发布于 2025-04-04 09:33:49
1350
举报
文章被收录于专栏:未来先知未来先知

脑肿瘤可能导致神经功能障碍、认知和心理状态的改变、颅内压升高以及癫痫发作,从而对人类生命和健康构成重大风险。YOLO(You Only Look Once)系列模型在医学影像目标检测方面展现出卓越的准确性。 本文提出了一种新型的SCC-YOLO架构,通过将SCConv注意力机制集成到YOLOv9中。SCConv模块通过减少特征间的空间和通道冗余,重构了一个高效的卷积模块,从而增强了图像特征的学习。 作者使用Br35H数据集和自制的脑肿瘤数据集(Brain_Tumor_Dataset)来研究将不同的注意力机制集成到YOLOv9模型对脑肿瘤图像检测的影响。 实验结果表明,在Br35H数据集上,SCC-YOLO相较于YOLOv9在mAp50上提升了0.3%,而在自制的脑肿瘤数据集上,SCC-YOLO相较于YOLOv9提升了0.5%。SCC-YOLO在脑肿瘤检测中达到了最先进的性能。 源代码可在以下链接获取:https://jihulab.com/healthcare-information-studio/SCC-YOLO/-/tree/master

一、引言

磁共振成像(MRI)是可视化大脑和识别肿瘤最有效的成像技术[1]。然而,由于脑肿瘤图像形态多样且边缘特征相对模糊[2],通过磁共振成像(MRI)诊断脑肿瘤的过程对于临床医生来说既复杂又低效,导致误诊和漏诊的风险增加。研究行人已将机器学习技术应用于脑肿瘤图像的分割和分类[3-10]。在脑肿瘤的自动检测和辅助诊断中,相关研究行人应用了无监督学习[11]、卷积神经网络(CNN)[12]、深度堆叠自编码器(DSAE)[15]以及You Only Look Once(YOLO)[13]、[14-18]等技术。Maibam Mangalleibi Chanu等人将YOLOv3[19]模型应用于脑肿瘤的计算机辅助检测和分类,代表了YOLO系列模型在脑肿瘤检测中的重要研究[16]。Kang等人基于YOLOv8[20]创新性地提出了RCS-YOLO[17]和BGF-YOLO[18]模型,在Br35H数据集上实现了良好的准确率和速度[25],展示了YOLO系列在脑肿瘤图像检测中的高度可行性。

YOLOv9[21]提出了可编程梯度信息(PGI)的概念,通过获取可靠的梯度信息来更新网络权重。这种方法解决了网络在特征提取和变换过程中遇到的信息丢失问题,在MS COCO数据集上实现了理想的准确性和速度。为了进一步提高YOLOv9模型的表现,研究行人将其原始网络结构中融入了各种注意力机制。胡玉康等人提出了FMSD模块(细粒度多尺度动态选择模块),该模块在细粒度多尺度特征图上应用了一种更有效的动态特征选择和融合方法,以及AGMF模块(自适应门控多分支聚焦融合模块),该模块利用多个并行分支来执行各个分支捕获的各种特征的互补融合。他们将这两个模块集成到YOLOv9中,开发了一种检测精度更高的新型目标检测器[22]。潘伟超等人提出了EAConv(高效注意力卷积)和EADown(高效注意力下采样),并基于这两个模块设计了一个轻量级模型EFA-YOLO(高效特征注意力YOLO)。在火灾检测应用中,其检测精度和推理速度得到了显著提升[23]。冯一帆等人提出了Hyper-Yolo,这是一个将图像特征从视觉模态转换为语义空间,并设计超图以实现位置和层级的交互,从而增强跨层特征整合和利用高阶特征相互关系的模型。该模型在COCO数据集上表现优异,并被证明是一种最先进的架构[24]。

本文提出了一种名为SCC-YOLO的新型模型,通过整合SCConv注意力机制,提升了YOLOv9的检测性能。本研究的贡献概述如下:

(1)作者创建了Brain_Tumor_Dataset数据集,包含9,900张分辨率为像素的RGB图像,其中训练集有7,920张图像,测试集有1,980张图像。数据集包含三种类型的标签,代表三种不同类型的脑肿瘤。

(2)作者将SCConv集成到原始YOLOv9结构的 Head ,以增强对脑肿瘤图像的特征学习能力。

(3)作者将SE注意力机制集成到原始YOLOv9结构的 Head ,以比较不同注意力机制对脑肿瘤检测的影响。

(4)据作者所知,这是首次将增强后的YOLOv9应用于脑肿瘤检测。

由Ahmed Hamada创建的数据集包含了803张带有标注脑肿瘤的MRI图像,分为501张训练图像、202张验证图像和101张测试图像。该数据集的结构旨在为脑肿瘤的检测和分类提供丰富的样本,支持相关研究和分析。

由于数据集规模较小,作者利用LabelImg工具创建了 Brain_Tumor_Dataset。该数据集包含9,900张图像,分辨率为的RGB图像,具有清晰的边界框标注和完整的图像,以及相应的标签txt文件。数据集包括三个标签,分别命名为Label0、Label1和Label2,代表三种不同的脑肿瘤类别。每张图像都标注了多个标签。训练集由7,920张图像和7,920个标签文件组成,测试集包括1,980张图像和1,980个标签文件,具体信息如表1所示。

表1. 数据集划分 与现有的公共数据集相比,Brain_Tumor_Dataset具有更大的样本量,涵盖了多种肿瘤类型,这有利于提升分类性能。其图像分辨率适中,能够在减少计算成本的同时保留图像细节,使其适用于YOLO系列模型。此外,数据集中图像的完整性有助于避免因缺失或损坏图像而引起的训练问题,确保模型可以从高质量数据中学习。

图1展示了数据集的部分样本图像。

B. SCC-YOLO概述

SCC-YOLO是一种基于深度学习的目标检测算法,它结合了尺度不变性、快速检测和精确度。本文将对其核心概念、技术细节和性能特点进行详细介绍。SCC-YOLO的主要优势在于能够有效识别和定位不同尺度、不同形状的目标,同时保持较高的检测速度和准确率。通过引入尺度归一化、特征融合和位置回归等策略,SCC-YOLO在多个数据集上取得了优异的检测效果。

作者提出了SCC-YOLO,该模型将SCConv[26]模块引入了YOLOv9原始结构的 Head ,置于第37层。

该架构分为两个主要部分: Backbone 网络和 Head 网络,每个部分都包含一系列精心排列的层级,这些层级共同决定了其整体性能。

YOLOv9的核心主要关注特征提取,采用一系列卷积层、下采样操作和高级块结构。该架构从静音层开始,随后是一系列卷积层,这些卷积层逐步减小输入图像的空间维度。

第一层卷积层将输出尺寸减半,而后续层进一步对特征图进行下采样,直至P2/4和P3/8。

该主干网络采用多个RepNCSPELAN模块,这些模块通过结合残差连接和高效的通道管理来增强特征表示。具体来说,这些模块将特征维度从256增加到512,同时在计算效率和表达能力之间保持平衡。

平均卷积下采样(ADown)层被分散布置在 Backbone 网络中,以促进渐进式下采样,从而产生不同分辨率的特征图(P3/8、P4/16、P5/32)。这种层次结构对于检测不同尺度的物体至关重要。

YOLOv9架构的 Head 负责生成最终的检测输出。它融合了先进的模块结构和上采样技术,以细化主干提取的特征。

Head 以一个SPPELAN块开始,该块处理512维特征图,从而进一步增强了检测任务中的空间和上下文信息。

一系列上采样层被用于合并 Backbone 网络不同层次的特征。级联操作有效地将 Backbone 网络早期阶段的高分辨率特征与更深层次、语义更丰富的特征相结合,从而提高了定位和分类的性能。

Head 包含一个DualDDetect层,该层整合来自多个特征层(A3、A4、A5、P3、P4、P5)的信息,以生成鲁棒的目标检测预测。这种多尺度方法增强了网络检测不同尺寸物体的准确性。

此外,还集成了一个多层次可逆辅助分支,这有助于融合不同阶段的特征,增强了网络在多个尺度上利用上下文信息的能力。

Head 的一个重要创新是引入了SCConv模块,该模块通过应用空间通道卷积来增强特征聚焦并提升检测性能。该模块被巧妙地放置,以增强检测过程的有效性。

C. SCConv的集成

在YOLOv9网络 Head 第37层之后,作者集成了SCConv模块——这是一种即插即用的操作,它依次结合了空间重建单元(SRU)和通道重建单元(CRU),如图2所示。

在 Bottleneck 残差块的中间输入特征中,作者首先使用SRU操作推导出空间细化特征,随后应用CRU操作以获得通道细化特征。SCConv模块充分利用了特征中固有的空间和通道冗余,并无缝集成到YOLOv9架构中,有效减少了中间特征图之间的冗余,并提升了特征表示。

图3展示了SRU的架构。SRU通过利用加权指标有效地分离冗余特征,随后在空间维度上重建这些特征,以减轻冗余并增强特征表示。

CRU的架构如图4所示。CRU采用了一种策略,通过分割、转换和融合特征来减少通道维度的冗余,从而降低计算成本和存储需求。

D. 与SE注意力机制的对比

学术社区中广泛使用的Squeeze-and-Excitation(SE)注意力机制[27]旨在通过显著提高通道特征的表达能力来提升模型性能。该机制通过两个步骤自适应调整特征通道的权重:“压缩”和“激发”,从而突出重要特征并抑制不那么重要的特征。其实施过程包括全局平均池化以获取通道描述符,随后通过全连接层生成通道权重,最后将这些权重应用于原始特征图以调整每个通道的重要性。许多学者将SE注意力机制与YOLO系列模型结合应用于相关研究[28-35]。

然而,SE机制主要通过加权通道来增强特征图,从而忽略了空间维度中包含的信息。这种遗漏可能导致在处理具有复杂空间关系的特征时,关键空间上下文信息丢失。此外,SE模块的引入在每一层卷积之后增加了额外的计算步骤,包括全局平均池化、全连接层和激活函数,从而增加了计算负担。尽管SE机制在多种视觉任务中表现出强大的性能,但与其他更复杂的注意力机制相比,其有效性可能有所降低,尤其是在需要复杂特征交互的任务中,如医学成像中的目标检测。

在这项研究中,作者在原始YOLOv9网络第37层之后整合了SE注意力机制,同时确保实验设置与SCCYOLO中使用的设置保持一致。作者将这个新模型命名为SE-YOLOv9。

实验结果表明,在Br35H和脑肿瘤数据集上,SE-YOLOv9的性能指标均低于SCC-YOLO。这一发现表明,在医疗影像任务中,例如脑肿瘤辅助诊断,SCC-YOLO有效地整合了空间和通道信息,因此在性能上优于仅依赖SE注意力机制的模型。

第11.1节 实验细节

CC-YOLO在NVIDIA GeForce RTX 3090显卡上进行了训练和测试。如表2所示,作者基于YOLOv9c实现了所提出的方法。SCC-YOLO及其他对比方法的训练超参数与YOLOv9c相同。在Br35H数据集上,训练批次大小设置为4,训练阶段的迭代次数为120次。优化器采用随机梯度下降法,初始和最终学习率为0.01,动量为0.937。在Brain_Tumor数据集上,由于数据集的数据量较大,训练批次大小同样设置为4,但训练阶段的迭代次数增加到400次。优化器再次使用随机梯度下降法,初始和最终学习率仍为0.01,动量为0.937。

评估指标

本文选取了精确率、召回率、mAP50以及mAP50:95等参数、层和梯度作为评估模型性能的指标,以研究该模型的优缺点。

在此背景下,TP代表被准确识别为正样本的正样本数量;而FP代表被错误分类为正样本的负样本数量;最后,PN代表被错误分类为负样本的正样本数量。

mAP50表示模型在检测到的正样本中,当交并比(IoU)≥0.5时的平均精度,即精度-召回率(PR)曲线下平均值的平均值。相比之下,mAP50:95是指在多个IoU阈值下计算的平均精度,具体为从0.5到0.95以0.05为增量平均这些值,总共得到10个阈值。mAP50:95提供了一种更严格的性能评估标准,能够更全面地反映模型在不同检测难度水平上的表现,适用于需要高精度的应用场景。

参数是神经网络内部从训练数据中学习得到的变量。一个模型中的参数总数可以通过对所有层的权重和偏置求和来计算。参数数量越多通常意味着模型越复杂,能够捕捉数据中的更复杂模式,但也存在过拟合的风险。

层是神经网络的基本构建模块。每一层包含一组神经元,这些神经元处理输入并将输出传递给后续层。层的排列和类型定义了神经网络的架构,影响了其性能、容量以及从数据中学习的能力。

梯度对于神经网络训练过程至关重要,尤其是在随机梯度下降(SGD)等优化算法的背景下。梯度是一个向量,表示损失函数相对于模型中每个参数的偏导数。

IV. 实验结果与讨论分析 YOLOv9实现了0.954的mAP50得分,0.751的mAP50:95得分,0.926的精确度和0.939的召回率。SEYOLOv9的性能略低,其mAP50得分为0.931,mAP50:95得分为0.697。其精确度和召回率分别为0.906和0.914,表明与YOLOv9相比,检测能力有所下降。作者提出的SCC-YOLO( ours)模型在性能上优于其他模型,实现了0.957的mAP50得分和0.735的mAP50:95得分。精确度为0.922,召回率为0.943,显示出平衡的性能,在mAP50上略胜一筹。

总体而言,实验结果表明,SCC-YOLO模型在Br35H数据集上表现出最佳性能,紧随其后的是YOLOv9,而SE-YOLOv9在所有指标上的效能相对较低。

表4总结了在脑肿瘤数据集上评估的三种模型的性能指标。这些指标包括在交并比(IoU)阈值为0.50时的平均精度均值(mAP50)、在IoU阈值从0.50到0.95的平均精度均值(mAP50:95)、准确率和召回率。

YOLOv9实现了0.855的mAP50分数,这成为了一个比较的基准。其mAP50:95分数为0.631,精度为0.938,召回率为0.783。该模型表现出强大的性能,尤其是在精度方面。SEYOLOv9的mAP50分数为0.828,比YOLOv9降低了0.027。SE-YOLOv9的mAP50:95分数为0.585,精度为0.906,召回率为0.748。mAP50和其他指标的降低表明,相对于YOLOv9,其检测能力有所下降。作者提出的SCC-YOLO模型在mAP50分数上优于SE-YOLOv9,达到了0.860,这表明比YOLOv9提高了0.005,比SE-YOLOv9有显著的0.032优势。mAP50:95分数为0.629,精度和召回率分别为0.929和0.781。这一性能突出了SCC-YOLO模型在实现更高检测精度方面的有效性。

总结来说,实验结果表明,SCC-YOLO实现了最高的mAP50分数,达到0.860,其次是YOLOv9,分数为0.855,SE-YOLOv9的分数为0.828。观察到的mAP50分数差异反映了每个模型在数据集中检测脑瘤的相对优势和劣势,其中SCC-YOLO相较于SE-YOLOv9提供了显著的改进。

YOLOv9的特征是包含总计5,099,995,90个参数,由962层组成,使用了5,099,995,58个梯度。该架构被用作与其他模型进行比较的 Baseline 。SE-YOLOv9的参数数量更高,达到6,079,875,9个,由934层构成,产生了6,079,872,7个梯度。作者提出的SCC-YOLO( ours)的参数总数为5,808,055,0个,包含977层和5,808,051,8个梯度。这种配置在参数数量和层数之间取得了平衡,暗示着可能是一个优化过的架构。总的来说,比较结果显示,尽管SE-YOLOv9拥有最多的参数,SCC-YOLO在保持具有竞争力的参数数量的同时,也增加了层数。YOLOv9虽然参数最少,但展示了具有最高梯度数量的高效架构。这项分析为评估模型之间的架构复杂性和潜在的性能权衡提供了洞见。

五、结论

本研究的结论是,提出了一种新的SCC-YOLO架构,该架构将SCConv注意力机制有效地集成到YOLOv9框架中,从而提高了脑肿瘤检测能力。SCConv模块的引入显著减轻了空间和通道冗余,促进了从医学图像中更有效的特征学习。

作者的实验在数据集和自定义的Brain_Tumor_Dataset上进行了,结果表明SCC-YOLO在两个数据集上均优于原始的YOLOv9模型,分别实现了数据集上的平均精度均值(mAP)0.957和Brain_Tumor_Dataset上的0.86。

此外,SCC-YOLO在数据集上,在交并比(IoU)为0.5的情况下,平均精度均值提升了0.3%,在自定义数据集上提升了0.5%。

这些发现突出了SCC-YOLO架构在解决脑肿瘤检测相关挑战中的有效性,为医学影像技术的进步做出了贡献,并可能有助于提高诊断的准确性。值得注意的是,SCC-YOLO在脑肿瘤检测领域已达到最先进的性能水平。

参考

[1]. SCC-YOLO: An Improved Object Detector for Assisting in Brain Tumor Diagnosis .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
YoloV9改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
本文介绍了一种基于YOLOv5的人脸检测方法,命名为YOLO-FaceV2。该方法旨在解决人脸检测中的尺度变化、简单与困难样本不平衡以及人脸遮挡等问题。通过引入一系列创新模块和损失函数,YOLO-FaceV2在WiderFace数据集上取得了优异的表现,特别是在小物体、遮挡和困难样本的检测上。
AI浩
2024/10/31
4790
YoloV9改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
YOLO系列的核心思想就是把目标检测转变为一个回归问题,利用整张图片作为网络的输入,通过神经网络,得到边界框的位置及其所属的类别。
JOYCE_Leo16
2024/04/09
31.6K1
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV9模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
AI浩
2024/10/22
2820
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制,实现精准车牌检测
在本文中,作者提出了一种改进的YOLOv7模型,称为YOLO-SLD,主要用于提高车牌检测的准确性和效率。以下是本文的主要创新点:
小白学视觉
2024/10/25
1960
【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制,实现精准车牌检测
FA-YOLO:高效轻量级检测模型,94.6%参数减少,88倍速度提升!
作为一种突发性和极其破坏性的灾害[1,2,3],火长期以来对人类社会和自然环境构成了严重威胁。随着城市化和工业化的加速,建筑结构的复杂性以及人口的密集度逐渐增加,火灾的频率和危害也在逐年上升[4,5,6,7]。根据国际消防组织(IFPO)的统计数据,每年全球发生数百万起火灾事故,导致了大量的行人伤亡和财产损失,同时对生态环境造成了不可逆转的破坏。在森林区域,火势的蔓延通常会导致大片森林资源的破坏,进而加剧土壤侵蚀和空气污染等生态问题。
未来先知
2024/10/15
3790
FA-YOLO:高效轻量级检测模型,94.6%参数减少,88倍速度提升!
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
低光照条件下交通标志的有效检测仍是一项重大挑战。为解决这一问题,我们提出YOLO-LLTS算法,这是一种专为低光环境设计的端到端实时交通标志检测方法。首先,我们引入高分辨率小目标特征检测模块(HRFM-TOD)以解决低光场景中小目标特征模糊的问题。该模块通过利用高分辨率特征图,有效缓解传统PANet框架中的特征稀释现象,从而同时提升检测精度与推理速度。其次,我们开发了多分支特征交互注意力模块(MFIA),该模块通过在通道和空间维度上实现多感受野的深层特征交互,显著增强了模型的信息提取能力。最后,我们提出先验引导增强模块(PGFE)以应对低光环境中常见的图像质量问题(如噪声、低对比度和模糊)。该模块利用先验知识丰富图像细节并提升可视性,大幅改善检测性能。为支撑本研究,我们构建了新型数据集CNTSSS(中国夜间交通标志样本集),涵盖城市、高速公路、乡村等多种夜间场景及不同天气条件。实验评估表明,YOLO-LLTS在TT100K-night数据集上mAP50和mAP50:95分别超越现有最佳方法2.7%和1.6%,在CNTSSS数据集上分别提升1.3%和1.9%,并在CCTSDB2021数据集上取得最优结果。边缘设备部署实验进一步验证了该方法的实时性与有效性。
CoovallyAIHub
2025/04/16
2560
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
YOLO算法改进 | YOLO11改进揭秘,前沿论文精华预览
众所周知,YOLO系列一直是计算机视觉领域的研究热点。作为其最新力作,YOLO11在2025年无疑将成为各大顶级会议的焦点。原因在于,一方面,YOLO系列的其他版本改进空间已趋于饱和,而YOLO11问世不久,尚有广阔的创新空间。另一方面,YOLO11在保持高准确度的同时,计算效率得到了显著提升,尤其在资源受限的环境中表现出色。然而,它也面临着模型复杂度较高、对标注数据质量和数量的依赖等问题,这也为进行学术创新提供了契机。
CoovallyAIHub
2025/02/05
1.5K0
YOLO算法改进 | YOLO11改进揭秘,前沿论文精华预览
YOLO-TLA也来了 | 重新设计C3模块为Backbone引入轻量化注意力,诞生高效的小目标检测YOLO模型
近年来深度学习的快速发展导致了计算机视觉各个方面的重要突破,尤其是在目标检测领域。这个计算机视觉的关键方面旨在识别和分类图像中的目标(例如,行人、动物、车辆),这对于目标追踪和目标分割等任务是一个基础性的要素。其在工业应用中非常广泛,范围从缺陷检测到自动驾驶。
集智书童公众号
2024/03/01
1.8K0
YOLO-TLA也来了 | 重新设计C3模块为Backbone引入轻量化注意力,诞生高效的小目标检测YOLO模型
基于YOLOv9的NEU-DET缺陷检测算法,具有切片操作的SimAM注意力,魔改SimAM
💡💡💡本文内容:针对基基于YOLOv9的NEU-DET缺陷检测算法进行性能提升,加入各个创新点做验证性试验。
AI小怪兽
2024/09/24
3120
YOLO新成员 | CRAS-YOLO:基于 YOLOv5s 算法的多类别船舶检测与分类模型
基于卫星图像的多类别船舶检测和分类由于在军事和民用领域的重要应用而备受关注。在本研究中,团队在FUSAR船舶数据集和SimpleCopyPaste方法的基础上生成了一个新的Artificial-SAR-Vessel数据集中。我们进一步提出了一种新的多类船检测,称为CRAS-YOLO,它由卷积块注意力模块(CBAM)、感受野块(RFB)和基于YOLOv5s的自适应空间特征融合(ASFF)组成。CRAS-YOLO改进了基于路径聚合网络(PANet)的特征金字塔网络,该网络集成了RFB特征增强模块和ASFF特征融合策略,以获得更丰富的特征信息,并实现多尺度特征的自适应融合。同时,在骨干中增加了CBAM,以准确定位船只位置,提高检测能力。结果证实,CRAS-YOLO模型的准确度、召回率和平均准确度(mAP)(0.5)分别高达90.4%、88.6%和92.1%。所提出的模型在另一个Sar船舶检测(SSDD)数据集中的精度、召回率和mAP得分分别高达97.3%、95.5%和98.7%,也优于先前的研究结果。
CoovallyAIHub
2025/01/06
1830
YOLO新成员 | CRAS-YOLO:基于 YOLOv5s 算法的多类别船舶检测与分类模型
YoloV9改进策略:BackBone改进:PoolFormer赋能YoloV9,视觉检测性能显著提升的创新尝试
在深度学习的广阔领域中,目标检测作为计算机视觉的基石任务之一,始终吸引着研究者的广泛关注。近期,我们大胆尝试将前沿的PoolFormer主干网络引入经典的目标检测框架YoloV9中,这一创新性融合不仅为YoloV9注入了新的活力,更在检测精度与效率上实现了双重飞跃,成为目标检测领域的一股强劲新风。
AI浩
2024/10/22
4720
YoloV9改进策略:BackBone改进:PoolFormer赋能YoloV9,视觉检测性能显著提升的创新尝试
YoloV9改进策略:Block改进|MBConv在YoloV9中的应用
本文介绍了EfficientNetV2及其中的MBConv模块,并探讨了将MBConv模块应用于YoloV9中的可能性。通过替换YoloV9中的BottleNeck模块为MBConv模块,可以显著加快训练速度并提高模型性能。这一改进为YoloV9的目标检测任务提供了更高效、更准确的解决方案。
AI浩
2024/12/19
940
YoloV9改进策略:Block改进|MBConv在YoloV9中的应用
YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——YOLOv12,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。
AI浩
2025/02/26
4221
YOLOv12:以注意力为中心的实时目标检测器
视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !
近年来,一些目标检测模型能够在不同的数据集上捕捉到稳健、具有代表性的高级语义特征,从而实现了对物体的高精度定位和分类。这些架构包含了基于学习的视觉特征编码器,这对于感知目标检测至关重要,即识别和解释视觉信息以识别物体的过程。Transformer架构是这些模型中的佼佼者,在多个目标检测基准测试中取得了最先进的结果。Transformer编码器在目标检测中取得成功的其中一个原因是它们能够通过注意力机制来建模视觉元素之间的长距离依赖关系。这种能力使它们非常适合视觉检测任务,在这些任务中,理解不同尺度范围内的空间关系是至关重要的。
未来先知
2025/02/08
2550
视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YOLO系列一直是实时目标检测领域的领先框架,不断提高速度和准确性之间的平衡。然而,将注意力机制整合到YOLO中一直具有挑战性,因为它们的计算开销很高。YOLOv12引入了一种新方法,在保持实时性能的同时,成功地集成了基于注意力的增强功能。本文全面回顾了YOLOv12在架构上的创新,包括用于提高计算效率的区域注意(Area Attention)、用于改进特征聚合的剩余高效层聚合网络(Residual Efficient Layer Aggregation Networks)和用于优化内存访问的闪存注意(FlashAttention)。此外,我们还将YOLOv12与之前的YOLO版本和竞争对象检测器进行了比较,分析了其在准确性、推理速度和计算效率方面的改进。通过分析,我们展示了YOLOv12如何通过改进延迟与准确性的权衡和优化计算资源来推进实时对象检测。
CoovallyAIHub
2025/04/25
4830
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
YoloV9改进策略:BackBone改进|Swin Transformer赋能YoloV9,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV9目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV9系列模型注入了新的活力。
AI浩
2024/10/22
3010
YoloV9改进策略:BackBone改进|Swin Transformer赋能YoloV9,性能跃升的新篇章
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
鉴于高发病率和死亡率,脑肿瘤是全球健康关注的重点问题。通过利用深度学习算法等最先进技术,自动化检测技术可以有效解决脑肿瘤识别的挑战。将自动化检测融入医疗流程,有望通过革新脑肿瘤的管理方式显著提高患者疗效和医疗服务,尤其是随着技术的发展。最先进的目标检测方法YOLO在估算每个网格单元的类别概率和边界框时,将输入图像划分为网格。
集智书童公众号
2024/05/17
7980
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用
随着技术的发展,监控设备在农业中发挥着巨大的作用。有多种方法可以监测个体动物的行为,例如插入芯片记录生理数据、使用可穿戴传感器和(热)成像技术。一些方法使用附着在鸟类脚上的可穿戴传感器来测量它们的活动,但这可能会对受监测的动物产生额外影响。特别是,在商业环境中,技术限制和高成本导致这种方法的可行性低。
集智书童公众号
2023/02/26
2.8K0
YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用
YOLO 系列目标检测大合集
YOLO(You Only Look Once,你只看一次)是一系列开创性的实时目标检测模型,它们彻底改变了计算机视觉领域。由Joseph Redmon开发,后续版本由不同研究人员迭代,YOLO模型以其在图像中检测对象的高速度和准确性而闻名。以下是对每个YOLO版本的详细查看:
小白学视觉
2024/11/01
4620
YOLO 系列目标检测大合集
革新突破!YOLOv12携注意力机制震撼登场,实时检测快如闪电!
YOLOv12提出了以注意力为中心的实时目标检测框架,通过方法论创新和架构改进,打破了传统CNN在YOLO系列中的主导地位。
AI小怪兽
2025/02/24
4300
推荐阅读
YoloV9改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
4790
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!
31.6K1
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
2820
【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制,实现精准车牌检测
1960
FA-YOLO:高效轻量级检测模型,94.6%参数减少,88倍速度提升!
3790
夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
2560
YOLO算法改进 | YOLO11改进揭秘,前沿论文精华预览
1.5K0
YOLO-TLA也来了 | 重新设计C3模块为Backbone引入轻量化注意力,诞生高效的小目标检测YOLO模型
1.8K0
基于YOLOv9的NEU-DET缺陷检测算法,具有切片操作的SimAM注意力,魔改SimAM
3120
YOLO新成员 | CRAS-YOLO:基于 YOLOv5s 算法的多类别船舶检测与分类模型
1830
YoloV9改进策略:BackBone改进:PoolFormer赋能YoloV9,视觉检测性能显著提升的创新尝试
4720
YoloV9改进策略:Block改进|MBConv在YoloV9中的应用
940
YOLOv12:以注意力为中心的实时目标检测器
4221
视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !
2550
YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
4830
YoloV9改进策略:BackBone改进|Swin Transformer赋能YoloV9,性能跃升的新篇章
3010
RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层!
7980
YOLO系列的落地 | YOLOv7+注意力机制在农业上的应用
2.8K0
YOLO 系列目标检测大合集
4620
革新突破!YOLOv12携注意力机制震撼登场,实时检测快如闪电!
4300
相关推荐
YoloV9改进策略:Block改进|RFE模块,提高小物体的识别精度|即插即用|代码+修改过程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档