在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV10模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。
将CAFormer应用于YoloV10模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV10提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。
与传统的目标检测模型相比,采用CAFormer的YoloV10具有以下显著优点:
https://arxiv.org/pdf/2210.13452 摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:
(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。
(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。
(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。
(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型(称为ConvFormer,可视为纯卷积神经网络)在性能上超过了强大的卷积神经网络模型ConvNeXt。
(b)CAFormer在ImageNet-1K上创下了新纪录。通过在底层阶段简单地应用深度可分离卷积作为令牌混合器,在顶层阶段应用普通的自注意力机制,由此产生的模型CAFormer在ImageNet-1K上创下了新纪录:在无需外部数据或知识蒸馏的正常监督训练下,它在224×224分辨率下达到了85.5%的准确率。
在探索MetaFormer的过程中,我们还发现了一种新的激活函数StarReLU,与常用的GELU相比,它在激活过程中减少了71%的浮点运算量(FLOPs),同时实现了更好的性能。具体来说,StarReLU是Squared ReLU的一种变体,专门用于缓解分布偏移。我们期望StarReLU在MetaFormer类模型以及其他神经网络中找到巨大的潜力。代码和模型可在https://github.com/sail-sg/metaformer获取。
近年来,Transformer [9] 在各种计算机视觉任务中 [10]、[11]、[12]、[13] 取得了前所未有的成功。Transformer的能力长期以来一直归功于其注意力模块。因此,为了加强视觉Transformer(ViTs)[11],已经提出了许多基于注意力的令牌混合器[4]、[5]、[14]、[15]、[16]。然而,一些工作[17]、[18]、[19]、[20]、[21]发现,通过将Transformer中的注意力模块替换为简单的运算符,如空间MLP [17]、[22]、[23]或傅里叶变换[18],得到的模型仍然能产生令人鼓舞的性能。
沿着这一思路,工作[24]将Transformer抽象为一个称为MetaFormer的通用架构,并假设正是MetaFormer在模型中实现竞争性能方面发挥着重要作用。为了验证这一假设,[24]采用了极其简单的运算符——池化,作为令牌混合器,并发现PoolFormer有效地优于精致的ResNet/ViT/MLP类基线模型[1]、[2]、[4]、[11]、[17]、[22]、[25]、[26],这证实了MetaFormer的重要性。
YOLOv10l summary (fused): 722 layers, 35588224 parameters, 0 gradients, 109.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:06<00:00, 4.28it/s]
all 230 1412 0.973 0.962 0.991 0.749
c17 230 131 0.973 0.969 0.993 0.855
c5 230 68 0.955 0.934 0.989 0.828
helicopter 230 43 0.977 0.984 0.994 0.657
c130 230 85 0.977 0.98 0.994 0.661
f16 230 57 0.986 0.912 0.988 0.675
b2 230 2 0.919 1 0.995 0.796
other 230 86 0.986 0.919 0.961 0.53
b52 230 70 0.995 0.957 0.984 0.859
kc10 230 62 0.984 0.979 0.985 0.839
command 230 40 1 0.943 0.995 0.841
f15 230 123 1 0.976 0.995 0.661
kc135 230 91 0.988 0.967 0.984 0.643
a10 230 27 1 0.783 0.979 0.502
b1 230 20 0.982 0.95 0.99 0.718
aew 230 25 0.924 0.98 0.983 0.75
f22 230 17 0.997 1 0.995 0.788
p3 230 105 1 0.94 0.995 0.779
p8 230 1 0.949 1 0.995 0.597
f35 230 32 1 0.893 0.994 0.562
f18 230 125 0.976 0.973 0.992 0.804
v22 230 41 0.995 1 0.995 0.689
su-27 230 31 1 0.985 0.995 0.868
il-38 230 27 1 0.947 0.994 0.931
tu-134 230 1 0.841 1 0.995 0.995
su-33 230 2 0.975 1 0.995 0.647
an-70 230 2 0.894 1 0.995 0.895
tu-22 230 98 1 0.992 0.995 0.861
完整链接: https://blog.csdn.net/m0_47867638/category_12763086.html?spm=1001.2014.3001.5482