Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >YoloV10改进策略:BackBone改进|CAFormer在YoloV10中的创新应用,显著提升目标检测性能

YoloV10改进策略:BackBone改进|CAFormer在YoloV10中的创新应用,显著提升目标检测性能

作者头像
AI浩
发布于 2024-10-22 05:23:41
发布于 2024-10-22 05:23:41
24600
代码可运行
举报
文章被收录于专栏:AI智韵AI智韵
运行总次数:0
代码可运行

摘要

在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV10模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。

CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。

将CAFormer应用于YoloV10模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV10提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。

与传统的目标检测模型相比,采用CAFormer的YoloV10具有以下显著优点:

  1. 性能卓越:CAFormer的引入使得YoloV10在目标检测任务上实现了更高的准确率,为实际应用提供了更为可靠的保障。
  2. 计算高效:尽管CAFormer在低层阶段引入了自注意力机制,但得益于顶层阶段的深度可分离卷积,整体计算复杂度仍然保持在可控范围内,确保了模型的实时性。
  3. 泛化能力强:CAFormer在ImageNet-1K等大规模数据集上的优秀表现,证明了其强大的泛化能力。这意味着,采用CAFormer的YoloV10在面对不同场景和数据集时,都能保持稳定的性能。

论文:《用于视觉的MetaFormer基线模型》

https://arxiv.org/pdf/2210.13452 摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:

(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。

(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。

(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。

(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型(称为ConvFormer,可视为纯卷积神经网络)在性能上超过了强大的卷积神经网络模型ConvNeXt。

(b)CAFormer在ImageNet-1K上创下了新纪录。通过在底层阶段简单地应用深度可分离卷积作为令牌混合器,在顶层阶段应用普通的自注意力机制,由此产生的模型CAFormer在ImageNet-1K上创下了新纪录:在无需外部数据或知识蒸馏的正常监督训练下,它在224×224分辨率下达到了85.5%的准确率。

在探索MetaFormer的过程中,我们还发现了一种新的激活函数StarReLU,与常用的GELU相比,它在激活过程中减少了71%的浮点运算量(FLOPs),同时实现了更好的性能。具体来说,StarReLU是Squared ReLU的一种变体,专门用于缓解分布偏移。我们期望StarReLU在MetaFormer类模型以及其他神经网络中找到巨大的潜力。代码和模型可在https://github.com/sail-sg/metaformer获取。

1 引言

近年来,Transformer [9] 在各种计算机视觉任务中 [10]、[11]、[12]、[13] 取得了前所未有的成功。Transformer的能力长期以来一直归功于其注意力模块。因此,为了加强视觉Transformer(ViTs)[11],已经提出了许多基于注意力的令牌混合器[4]、[5]、[14]、[15]、[16]。然而,一些工作[17]、[18]、[19]、[20]、[21]发现,通过将Transformer中的注意力模块替换为简单的运算符,如空间MLP [17]、[22]、[23]或傅里叶变换[18],得到的模型仍然能产生令人鼓舞的性能。

沿着这一思路,工作[24]将Transformer抽象为一个称为MetaFormer的通用架构,并假设正是MetaFormer在模型中实现竞争性能方面发挥着重要作用。为了验证这一假设,[24]采用了极其简单的运算符——池化,作为令牌混合器,并发现PoolFormer有效地优于精致的ResNet/ViT/MLP类基线模型[1]、[2]、[4]、[11]、[17]、[22]、[25]、[26],这证实了MetaFormer的重要性。

测试结果

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
YOLOv10l summary (fused): 722 layers, 35588224 parameters, 0 gradients, 109.3 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 29/29 [00:06<00:00,  4.28it/s]
                   all        230       1412      0.973      0.962      0.991      0.749
                   c17        230        131      0.973      0.969      0.993      0.855
                    c5        230         68      0.955      0.934      0.989      0.828
            helicopter        230         43      0.977      0.984      0.994      0.657
                  c130        230         85      0.977       0.98      0.994      0.661
                   f16        230         57      0.986      0.912      0.988      0.675
                    b2        230          2      0.919          1      0.995      0.796
                 other        230         86      0.986      0.919      0.961       0.53
                   b52        230         70      0.995      0.957      0.984      0.859
                  kc10        230         62      0.984      0.979      0.985      0.839
               command        230         40          1      0.943      0.995      0.841
                   f15        230        123          1      0.976      0.995      0.661
                 kc135        230         91      0.988      0.967      0.984      0.643
                   a10        230         27          1      0.783      0.979      0.502
                    b1        230         20      0.982       0.95       0.99      0.718
                   aew        230         25      0.924       0.98      0.983       0.75
                   f22        230         17      0.997          1      0.995      0.788
                    p3        230        105          1       0.94      0.995      0.779
                    p8        230          1      0.949          1      0.995      0.597
                   f35        230         32          1      0.893      0.994      0.562
                   f18        230        125      0.976      0.973      0.992      0.804
                   v22        230         41      0.995          1      0.995      0.689
                 su-27        230         31          1      0.985      0.995      0.868
                 il-38        230         27          1      0.947      0.994      0.931
                tu-134        230          1      0.841          1      0.995      0.995
                 su-33        230          2      0.975          1      0.995      0.647
                 an-70        230          2      0.894          1      0.995      0.895
                 tu-22        230         98          1      0.992      0.995      0.861

总结

完整链接: https://blog.csdn.net/m0_47867638/category_12763086.html?spm=1001.2014.3001.5482

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智韵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV9模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
AI浩
2024/10/22
2620
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
YoloV8改进策略:BackBone改进|CAFormer在YoloV8中的创新应用,显著提升目标检测性能
在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV8模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
AI浩
2024/10/22
6140
YoloV8改进策略:BackBone改进|CAFormer在YoloV8中的创新应用,显著提升目标检测性能
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
在深度学习的广阔领域中,目标检测作为计算机视觉的基石任务之一,始终吸引着研究者的广泛关注。近期,我们大胆尝试将前沿的PoolFormer主干网络引入经典的目标检测框架YoloV8中,这一创新性融合不仅为YoloV8注入了新的活力,更在检测精度与效率上实现了双重飞跃,成为目标检测领域的一股强劲新风。
AI浩
2024/10/22
3900
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV10目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV10系列模型注入了新的活力。
AI浩
2024/10/22
4750
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV8目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV8系列模型注入了新的活力。
AI浩
2024/10/22
6240
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升
在深度学习与计算机视觉领域,模型效率与性能之间的平衡一直是研究者和开发者关注的焦点。特别是在实时检测与识别任务中,如YoloV8这类高效的目标检测模型,其主干网络的选择对整体性能具有决定性作用。近期,我们通过将CAS-ViT(卷积加性自注意力视觉Transformer)创新性地引入到YoloV8中,替换其原有的主干网络,实现了令人瞩目的性能提升,这一改进不仅彰显了CAS-ViT的强大潜力,也为YoloV8的进一步优化开辟了新路径。
AI浩
2024/10/22
4320
YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
由于复杂的注意力机制和模型设计,大多数现有的视觉Transformer(ViTs)在实际的工业部署场景中,如TensorRT和CoreML,无法像卷积神经网络(CNNs)那样高效运行。这提出了一个明显的挑战:能否设计出一个视觉神经网络,既能像CNNs一样快速推理,又能像ViTs一样强大?在这项工作中,我们提出了一种下一代视觉Transformer,用于在实际工业场景中高效部署,即Next-ViT,它从延迟/准确性权衡的角度主导了CNNs和ViTs。Next Convolution Block(NCB)和Next Transformer Block(NTB)分别开发,以部署友好的机制捕获局部和全局信息。然后,设计了Next Hybrid Strategy(NHS),以高效的混合范式堆叠NCB和NTB,从而在各种下游任务中提升性能。广泛的实验表明,Next-ViT在各种视觉任务的延迟/准确性权衡方面显著优于现有的CNNs、ViTs和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测上超过了ResNet 5.5 mAP(从40.4到45.9),在ADE20K分割上超过了(从38.8%到46.5%),延迟相似。同时,它与CSWin的性能相当,推理速度提高了3.6倍。在CoreML上,Next-ViT在COCO检测上超过了EfficientFormer 4.6 mAP(从42.6到47.2),在ADE2OK分割上超过了3.5% mIoU(从45.1%到48.6%),延迟相似。我们的代码和模型已公开:https://github.com/bytedance/Next-ViT。
AI浩
2024/10/22
3300
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
YoloV9改进策略:注意力篇|Block改进|附结构图|自研基于xLSTM的注意力(全网首发)
本文使用Vision-LSTM的xLSTM改进YoloV9的RepNCSPELAN4结构,增加自研的注意力机制,取得了不错的得分。如果大家想发顶会,或者比较好的期刊,可以优先考虑!
AI浩
2024/10/22
2480
YoloV9改进策略:注意力篇|Block改进|附结构图|自研基于xLSTM的注意力(全网首发)
YoloV8的改进策略:下采样改进|集成GCViT的Downsampler模块实现性能显著提升|即插即用
随着深度学习在计算机视觉领域的广泛应用,目标检测任务成为了研究热点之一。YoloV8作为实时目标检测领域的领先模型,凭借其高效性与准确性赢得了广泛的关注。然而,为了进一步提升YoloV8的性能,特别是在特征提取与下采样过程中的信息保留能力,我们引入了来自GCViT(Global Context Vision Transformers)模型中的Downsampler模块。本文将详细阐述这一改进方法,并探讨其带来的显著优势。
AI浩
2024/10/22
2910
YoloV8的改进策略:下采样改进|集成GCViT的Downsampler模块实现性能显著提升|即插即用
YoloV10改进策略:卷积篇|ACConv2d模块在YoloV10中的创新应用与显著性能提升|简单易用|即插即用
在本文中,我们创新性地将ACConv2d模块引入到YoloV10目标检测模型中,通过对YoloV10中原有的Conv卷积层进行替换,实现了模型性能的大幅提升。ACConv2d模块基于不对称卷积块(ACB)的设计思想,利用1D非对称卷积(1×3和3×1卷积)来增强标准方形卷积核(如3×3卷积)的表征能力。这一创新不仅增强了模型的特征提取能力,还通过引入分组卷积的策略进一步降低了运算量,从而在保证模型精度的同时,提升了运行效率。
AI浩
2024/10/22
2600
YoloV10改进策略:卷积篇|ACConv2d模块在YoloV10中的创新应用与显著性能提升|简单易用|即插即用
YoloV8改进策略:三元注意力,小参数大能力,即插即用,涨点自如
注意力机制在计算机视觉领域得到了广泛的研究和应用,利用构建通道或空间位置之间的依赖关系的能力,有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制,并提出了一种新的计算注意力权重的方法——三元组注意力,通过一个三分支结构捕捉跨维度交互。对于输入张量,三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系,并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效,可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中,如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测,证明了该方法的有效性。此外,通过可视化检查GradCAM和GradCAM++结果,提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。相关代码可以在https://github.com/LandskapeAI/triplet-attention上公开访问。
AI浩
2024/10/22
1610
YoloV8改进策略:三元注意力,小参数大能力,即插即用,涨点自如
RT-DETR改进策略:BackBone改进|EfficientFormerV2在RT-DETR中的创新应用,精度与效率完美平衡
在追求高效且高精度的目标检测领域,RT-DETR凭借其卓越的性能和广泛的应用基础,一直是研究者和开发者们的首选框架之一。然而,随着应用场景的不断拓展,对模型尺寸和推理速度的要求也日益严苛。为了进一步提升RT-DETR的效能,我们创新性地引入了EfficientFormerV2模块,作为RT-DETR主干网络的替代方案,实现了在保持原有检测精度的同时,大幅度降低模型参数量的显著成果。
AI浩
2024/10/22
7110
RT-DETR改进策略:BackBone改进|EfficientFormerV2在RT-DETR中的创新应用,精度与效率完美平衡
YoloV8改进策略:SPD-Conv加入到YoloV8中,让小目标无处遁形
SPD-Conv是一种新的构建块,用于替代现有的CNN体系结构中的步长卷积和池化层。它由一个空间到深度(SPD)层和一个非步长卷积(Conv)层组成。
AI浩
2024/10/21
5570
YoloV8改进策略:SPD-Conv加入到YoloV8中,让小目标无处遁形
YoloV5改进策略:LSKNet加入到YoloV5中,打造更适合小目标的YoloV5
LSKNet核心思想是通过学习旋转不变的特征表示来提高目标检测的性能。在目标检测任务中,特别是遥感图像的目标检测,目标的旋转是一个常见的挑战。为了解决这个问题,LSKNet采用了一种新颖的旋转敏感的卷积操作,能够有效地捕捉到遥感图像中目标的旋转信息。
AI浩
2024/10/22
1600
YoloV5改进策略:LSKNet加入到YoloV5中,打造更适合小目标的YoloV5
无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录
*This work was partially performed when W. Yu was a research intern at Sea AI Lab.
机器之心
2022/12/16
8350
无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录
YoloV9改进策略:Block改进|改进HCF-Net|附结构图|多种改进方法(独家改进)
HCF-Net是一种用于红外小物体检测的深度学习网络。它主要包括三个模块:并行化斑块感知注意力(PPA)模块、维度感知选择性整合(DASI)模块和多稀释通道细化器(MDCR)模块。
AI浩
2024/10/22
2210
YoloV9改进策略:Block改进|改进HCF-Net|附结构图|多种改进方法(独家改进)
YoloV8改进策略:Intel面向参数高效动态卷积KernelWarehouse,YoloV8的上分显眼包
Intel提出了一种名为KernelWarehouse的通用动态卷积形式,旨在提高模型的表示能力并保持参数效率。KernelWarehouse通过对卷积核进行划分和共享,增强了相同层和连续层之间的卷积参数依赖性。该方法首先将卷积核划分为互不重叠的核单元,然后基于一个预定义的仓库计算每个核单元的线性混合,这个仓库被共享到多个相邻的卷积层中。最后将静态卷积核替换为其对应的混合结果的顺序组合,从而在满足所需的参数预算的同时,实现了高度的模型自由度。通过使用新的注意力函数对核单元进行加权的注意力,KernelWarehouse可以方便地学习并优化模型。
AI浩
2024/10/21
1380
YoloV8改进策略:Intel面向参数高效动态卷积KernelWarehouse,YoloV8的上分显眼包
YoloV8改进策略:AKConv即插即用,轻松涨点
提出了一种算法,用于生成任意尺寸卷积核的初始采样坐标。与常规卷积核相比,提出的AKConv实现了不规则卷积核的函数来提取特征,为各种变化目标提供具有任意采样形状和尺寸的卷积核,弥补了常规卷积的不足。在COCO2017和VisDrone-DET2021上进行目标检测实验,并进行了比较实验。结果表明,提出的AKConv方法在目标检测方面具有更好的性能。
AI浩
2024/10/22
1370
YoloV8改进策略:AKConv即插即用,轻松涨点
YoloV7改进策略:SwiftFormer,全网首发,独家改进的高效加性注意力用于实时移动视觉应用的模型,重构YoloV7
本文提出了新型高效加性注意力机制,替代传统自注意力机制中的二次矩阵乘法操作,线性元素级乘法可实现关键-值交互的替换。该高效自注意力机制可在网络所有阶段使用,不会牺牲准确性。同时介绍了名为“SwiftFormer”的模型系列,在准确性和移动推理速度方面达到了最先进的性能。其中一种小规模变体在iPhone 14上以仅0.8毫秒的延迟实现了78.5%的ImageNet-1K准确率,比MobileViT-v2更准确且快两倍,可用于分类、检测和分割等视觉应用。与EfficientFormer-L1相比,SwiftFormer-L1在准确率方面绝对增加了1.7%,同时保持相同的延迟,且不需要任何神经架构搜索。
AI浩
2024/10/22
1320
YoloV7改进策略:SwiftFormer,全网首发,独家改进的高效加性注意力用于实时移动视觉应用的模型,重构YoloV7
推荐阅读
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
2620
YoloV8改进策略:BackBone改进|CAFormer在YoloV8中的创新应用,显著提升目标检测性能
6140
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
3900
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
4750
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
6240
YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升
4320
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
3300
YoloV9改进策略:注意力篇|Block改进|附结构图|自研基于xLSTM的注意力(全网首发)
2480
YoloV8的改进策略:下采样改进|集成GCViT的Downsampler模块实现性能显著提升|即插即用
2910
YoloV10改进策略:卷积篇|ACConv2d模块在YoloV10中的创新应用与显著性能提升|简单易用|即插即用
2600
YoloV8改进策略:三元注意力,小参数大能力,即插即用,涨点自如
1610
RT-DETR改进策略:BackBone改进|EfficientFormerV2在RT-DETR中的创新应用,精度与效率完美平衡
7110
YoloV8改进策略:SPD-Conv加入到YoloV8中,让小目标无处遁形
5570
YoloV5改进策略:LSKNet加入到YoloV5中,打造更适合小目标的YoloV5
1600
无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录
8350
YoloV9改进策略:Block改进|改进HCF-Net|附结构图|多种改进方法(独家改进)
2210
YoloV8改进策略:Intel面向参数高效动态卷积KernelWarehouse,YoloV8的上分显眼包
1380
YoloV8改进策略:AKConv即插即用,轻松涨点
1370
YoloV7改进策略:SwiftFormer,全网首发,独家改进的高效加性注意力用于实时移动视觉应用的模型,重构YoloV7
1320
相关推荐
YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验