前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能

YoloV9改进策略:BackBone改进|CAFormer在YoloV9中的创新应用,显著提升目标检测性能

作者头像
AI浩
发布2024-10-22 13:23:46
1880
发布2024-10-22 13:23:46
举报
文章被收录于专栏:AI智韵

摘要

在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV9模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。

CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。

将CAFormer应用于YoloV9模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV9提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。

与传统的目标检测模型相比,采用CAFormer的YoloV9具有以下显著优点:

  1. 性能卓越:CAFormer的引入使得YoloV9在目标检测任务上实现了更高的准确率,为实际应用提供了更为可靠的保障。
  2. 计算高效:尽管CAFormer在低层阶段引入了自注意力机制,但得益于顶层阶段的深度可分离卷积,整体计算复杂度仍然保持在可控范围内,确保了模型的实时性。
  3. 泛化能力强:CAFormer在ImageNet-1K等大规模数据集上的优秀表现,证明了其强大的泛化能力。这意味着,采用CAFormer的YoloV9在面对不同场景和数据集时,都能保持稳定的性能。

论文:《用于视觉的MetaFormer基线模型》

https://arxiv.org/pdf/2210.13452 摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:

(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。

(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。

(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。

(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型(称为ConvFormer,可视为纯卷积神经网络)在性能上超过了强大的卷积神经网络模型ConvNeXt。

(b)CAFormer在ImageNet-1K上创下了新纪录。通过在底层阶段简单地应用深度可分离卷积作为令牌混合器,在顶层阶段应用普通的自注意力机制,由此产生的模型CAFormer在ImageNet-1K上创下了新纪录:在无需外部数据或知识蒸馏的正常监督训练下,它在224×224分辨率下达到了85.5%的准确率。

在探索MetaFormer的过程中,我们还发现了一种新的激活函数StarReLU,与常用的GELU相比,它在激活过程中减少了71%的浮点运算量(FLOPs),同时实现了更好的性能。具体来说,StarReLU是Squared ReLU的一种变体,专门用于缓解分布偏移。我们期望StarReLU在MetaFormer类模型以及其他神经网络中找到巨大的潜力。代码和模型可在https://github.com/sail-sg/metaformer获取。

1 引言

近年来,Transformer [9] 在各种计算机视觉任务中 [10]、[11]、[12]、[13] 取得了前所未有的成功。Transformer的能力长期以来一直归功于其注意力模块。因此,为了加强视觉Transformer(ViTs)[11],已经提出了许多基于注意力的令牌混合器[4]、[5]、[14]、[15]、[16]。然而,一些工作[17]、[18]、[19]、[20]、[21]发现,通过将Transformer中的注意力模块替换为简单的运算符,如空间MLP [17]、[22]、[23]或傅里叶变换[18],得到的模型仍然能产生令人鼓舞的性能。

沿着这一思路,工作[24]将Transformer抽象为一个称为MetaFormer的通用架构,并假设正是MetaFormer在模型中实现竞争性能方面发挥着重要作用。为了验证这一假设,[24]采用了极其简单的运算符——池化,作为令牌混合器,并发现PoolFormer有效地优于精致的ResNet/ViT/MLP类基线模型[1]、[2]、[4]、[11]、[17]、[22]、[25]、[26],这证实了MetaFormer的重要性。

在本文中,我们再次通过故意将注意力从令牌混合器上移开,进一步探索MetaFormer的边界。我们的目标是基于MetaFomer的极限,从而对其能力有一个全面的了解。为此,我们采用了最基本或最常见的令牌混合器,并研究了所得MetaFormer模型在大规模ImageNet-1K图像分类任务上的性能。具体来说,我们研究了令牌混合器是裸运算符(如恒等映射或全局随机混合)以及多年前就已存在的常见技术(如可分离卷积[6]、[7]、[8]和普通自注意力[9]),如图2所示。我们在图1中总结了我们的关键实验结果,主要观察结果如下。

  • MetaFormer确保了坚实的性能下限。通过将令牌混合器指定为最简单的运算符——恒等映射,我们构建了一个名为IdentityFormer的MetaFormer模型来探究性能下限。这个粗糙的模型令人惊讶地已经达到了令人满意的准确度。例如,在73M参数和11.5G MACs下,IdentityFormer在ImageNet-1K上达到了80.4%的top-1准确度。IdentityFormer的结果表明,即使涉及最低程度的令牌混合,MetaFormer也确实是一个能够保证良好性能的可靠架构。
  • MetaFormer与任意令牌混合器配合良好。为了探索MetaFormer对令牌混合器的通用性,我们进一步将令牌混合器设置为随机,这样令牌之间的信息传递是启用的但很大程度上是任意的。具体来说,我们在前两个阶段为令牌混合器配备了随机混合,并在后两个阶段保留了恒等映射,以避免带来过高的计算成本和冻结参数。得到的模型,称为RandFormer,证明是有效的,并且比IdentityFormer提高了1.0%,达到了81.4%的准确度。这一结果验证了MetaFormer与令牌混合器的普遍兼容性。因此,当引入奇异的令牌混合器时,请放心MetaFormer的性能。
  • MetaFormer 轻松提供最先进的性能。我们进一步尝试将更多信息丰富的算子注入到 MetaFormer 中,以探究其性能。同样,在不引入新型令牌混合器的情况下,配备有多年前发明的“老式”令牌混合器的 MetaFormer 模型,包括倒置可分离卷积 [6]、[7]、[8] 和普通自注意力 [9],轻松实现了最先进的性能。具体来说,
    • ConvFormer 优于 ConvNeXt。通过将令牌混合器实例化为可分离的深度卷积,得到的模型称为 ConvFormer,可以视为没有通道或空间注意力 [9]、[11]、[27]、[28] 的纯卷积神经网络(CNN)模型。实验结果表明,ConvFormer 在性能上始终优于强大的纯 CNN 模型 ConvNeXt [3]。
    • CAFormer 在 ImageNet-1K 上创下了新纪录。如果我们通过采用普通自注意力 [9] 将注意力引入 ConvFormer,得到的模型称为 CAFormer,在 ImageNet-1K 上轻松实现了创纪录的性能。具体来说,CAFormer 用普通自注意力替换了 ConvFormer 在前两个阶段的令牌混合器,并在 ImageNet-1K 上以 224x224 分辨率在正常监督设置(没有额外数据或知识蒸馏)下达到了 85.5% 的 top-1 准确率,创下了新纪录。

这些使用最基本或常用令牌混合器的 MetaFormer 模型,很容易成为视觉应用领域中可靠且具有竞争力的基线。当引入精细的令牌混合器或先进的训练策略时,我们毫不惊讶地看到类似 MetaFormer 的模型将创下新的性能纪录。在我们的探索过程中,我们还发现了一种新的激活函数 StarReLU,与常用的 GELU 相比,StarReLU 的激活浮点运算量(FLOPs)减少了高达 71%。StarReLU 是 Squared ReLU 的一种变体,但特别设计用于缓解分布偏移。在我们的实验中,具体来说,StarReLU 在 ConvFormer-S18 和 CAFormer-S18 上分别比 GELU 高出 0.3% 和 0.2% 的准确率。因此,我们期待 StarReLU 在类似 MetaFormer 的模型以及其他神经网络中找到巨大的潜力。

测试结果

代码语言:javascript
复制
yolov9-c summary: 851 layers, 65324560 parameters, 0 gradients, 255.5 GFLOPs
                 Class     Images  Instances          P          R      mAP50   mAP50-95: 100%|██████████| 29/29 00:07
                   all        230       1412      0.939      0.981       0.99      0.739
                   c17        230        131      0.963      0.992      0.995      0.815
                    c5        230         68      0.916          1      0.995      0.825
            helicopter        230         43      0.934          1      0.974      0.629
                  c130        230         85      0.975          1      0.995      0.679
                   f16        230         57      0.885      0.965      0.968      0.673
                    b2        230          2      0.809          1      0.995      0.723
                 other        230         86      0.975      0.901      0.968      0.594
                   b52        230         70      0.979      0.986      0.987      0.817
                  kc10        230         62      0.974      0.984      0.987      0.839
               command        230         40      0.998          1      0.995       0.82
                   f15        230        123      0.995          1      0.995      0.687
                 kc135        230         91          1      0.946       0.99      0.694
                   a10        230         27      0.989      0.963      0.969      0.507
                    b1        230         20      0.957          1      0.995      0.731
                   aew        230         25      0.927          1      0.993      0.789
                   f22        230         17      0.792          1      0.995      0.802
                    p3        230        105      0.987          1      0.995      0.809
                    p8        230          1      0.925          1      0.995      0.597
                   f35        230         32          1      0.784      0.988      0.586
                   f18        230        125      0.992      0.988      0.992      0.821
                   v22        230         41          1      0.972      0.995      0.712
                 su-27        230         31      0.979          1      0.995      0.834
                 il-38        230         27      0.976          1      0.995      0.822
                tu-134        230          1      0.812          1      0.995      0.895
                 su-33        230          2      0.847          1      0.995      0.597
                 an-70        230          2      0.774          1      0.995      0.822
                 tu-22        230         98      0.994          1      0.995      0.826

完整链接

https://jingjing.blog.csdn.net/article/details/142738861?spm=1001.2014.3001.5502

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智韵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 论文:《用于视觉的MetaFormer基线模型》
  • 1 引言
  • 测试结果
  • 完整链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档