前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >YoloV10改进策略:BackBone改进|CAFormer在YoloV10中的创新应用,显著提升目标检测性能

YoloV10改进策略:BackBone改进|CAFormer在YoloV10中的创新应用,显著提升目标检测性能

作者头像
AI浩
发布2024-10-22 13:23:41
1270
发布2024-10-22 13:23:41
举报
文章被收录于专栏:AI智韵

摘要

在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV10模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。

CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。

将CAFormer应用于YoloV10模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV10提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。

与传统的目标检测模型相比,采用CAFormer的YoloV10具有以下显著优点:

  1. 性能卓越:CAFormer的引入使得YoloV10在目标检测任务上实现了更高的准确率,为实际应用提供了更为可靠的保障。
  2. 计算高效:尽管CAFormer在低层阶段引入了自注意力机制,但得益于顶层阶段的深度可分离卷积,整体计算复杂度仍然保持在可控范围内,确保了模型的实时性。
  3. 泛化能力强:CAFormer在ImageNet-1K等大规模数据集上的优秀表现,证明了其强大的泛化能力。这意味着,采用CAFormer的YoloV10在面对不同场景和数据集时,都能保持稳定的性能。

论文:《用于视觉的MetaFormer基线模型》

https://arxiv.org/pdf/2210.13452 摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:

(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。

(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。

(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。

(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型(称为ConvFormer,可视为纯卷积神经网络)在性能上超过了强大的卷积神经网络模型ConvNeXt。

(b)CAFormer在ImageNet-1K上创下了新纪录。通过在底层阶段简单地应用深度可分离卷积作为令牌混合器,在顶层阶段应用普通的自注意力机制,由此产生的模型CAFormer在ImageNet-1K上创下了新纪录:在无需外部数据或知识蒸馏的正常监督训练下,它在224×224分辨率下达到了85.5%的准确率。

在探索MetaFormer的过程中,我们还发现了一种新的激活函数StarReLU,与常用的GELU相比,它在激活过程中减少了71%的浮点运算量(FLOPs),同时实现了更好的性能。具体来说,StarReLU是Squared ReLU的一种变体,专门用于缓解分布偏移。我们期望StarReLU在MetaFormer类模型以及其他神经网络中找到巨大的潜力。代码和模型可在https://github.com/sail-sg/metaformer获取。

1 引言

近年来,Transformer [9] 在各种计算机视觉任务中 [10]、[11]、[12]、[13] 取得了前所未有的成功。Transformer的能力长期以来一直归功于其注意力模块。因此,为了加强视觉Transformer(ViTs)[11],已经提出了许多基于注意力的令牌混合器[4]、[5]、[14]、[15]、[16]。然而,一些工作[17]、[18]、[19]、[20]、[21]发现,通过将Transformer中的注意力模块替换为简单的运算符,如空间MLP [17]、[22]、[23]或傅里叶变换[18],得到的模型仍然能产生令人鼓舞的性能。

沿着这一思路,工作[24]将Transformer抽象为一个称为MetaFormer的通用架构,并假设正是MetaFormer在模型中实现竞争性能方面发挥着重要作用。为了验证这一假设,[24]采用了极其简单的运算符——池化,作为令牌混合器,并发现PoolFormer有效地优于精致的ResNet/ViT/MLP类基线模型[1]、[2]、[4]、[11]、[17]、[22]、[25]、[26],这证实了MetaFormer的重要性。

测试结果

代码语言:javascript
复制
YOLOv10l summary (fused): 722 layers, 35588224 parameters, 0 gradients, 109.3 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 29/29 [00:06<00:00,  4.28it/s]
                   all        230       1412      0.973      0.962      0.991      0.749
                   c17        230        131      0.973      0.969      0.993      0.855
                    c5        230         68      0.955      0.934      0.989      0.828
            helicopter        230         43      0.977      0.984      0.994      0.657
                  c130        230         85      0.977       0.98      0.994      0.661
                   f16        230         57      0.986      0.912      0.988      0.675
                    b2        230          2      0.919          1      0.995      0.796
                 other        230         86      0.986      0.919      0.961       0.53
                   b52        230         70      0.995      0.957      0.984      0.859
                  kc10        230         62      0.984      0.979      0.985      0.839
               command        230         40          1      0.943      0.995      0.841
                   f15        230        123          1      0.976      0.995      0.661
                 kc135        230         91      0.988      0.967      0.984      0.643
                   a10        230         27          1      0.783      0.979      0.502
                    b1        230         20      0.982       0.95       0.99      0.718
                   aew        230         25      0.924       0.98      0.983       0.75
                   f22        230         17      0.997          1      0.995      0.788
                    p3        230        105          1       0.94      0.995      0.779
                    p8        230          1      0.949          1      0.995      0.597
                   f35        230         32          1      0.893      0.994      0.562
                   f18        230        125      0.976      0.973      0.992      0.804
                   v22        230         41      0.995          1      0.995      0.689
                 su-27        230         31          1      0.985      0.995      0.868
                 il-38        230         27          1      0.947      0.994      0.931
                tu-134        230          1      0.841          1      0.995      0.995
                 su-33        230          2      0.975          1      0.995      0.647
                 an-70        230          2      0.894          1      0.995      0.895
                 tu-22        230         98          1      0.992      0.995      0.861

总结

完整链接: https://blog.csdn.net/m0_47867638/category_12763086.html?spm=1001.2014.3001.5482

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智韵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 论文:《用于视觉的MetaFormer基线模型》
  • 1 引言
  • 测试结果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档