
在本文中,Facebook AI 和加州大学伯克利分校试图通过重新检查 ConvNets 的设计并测试其局限性来反驳 Transformers 的这种明显优势。所提出的方法基于逐渐修改标准 ResNet50,遵循受 Vision Transformer 密切启发的设计选择,以提出一个新的纯 ConvNet 系列,称为 ConvNeXt。
路线图
第一步是建立一个基线来测试由于后续修改而带来的改进。出于这个原因,ResNet50 模型使用最新技术(扩展 epoch 数,使用 AdamW 优化器、随机深度、标签平滑等)进行训练,并以 78.8% 的准确率超过了原始版本ImageNet-1k。然后实施了一系列设计决策,如下图所示:
对于每一步,性能最佳的解决方案都被用作下一步的标准。

1.宏观设计
作者考虑了 Swin Transformers 宏观设计的两个方面。首先是每个阶段的块数(阶段计算比率),按照(1:1)的Swin Transformer比率,从(4,4,6,3)调整为(3,3,9,3) :3:1)。第二个是干细胞配置,在原始 ResNet50 中由 7×7 卷积组成,步长为 2,后跟一个最大池化层。这被一个更类似于 Transformer 的“patchify”层所取代,该层利用 4×4 非重叠卷积,步幅为 4。
这些修改将准确度提高到 79.5%。
2.ResNeXt
在这一部分中,作者采用了流行的 ResNeXt 的两种设计选择:深度卷积,有趣地类似于自我注意,因为它们在每个通道的基础上工作,以及更多的通道数(从 64 到 96)。
这些修改将准确度提高到 80.5%。
3.倒置瓶颈
Transformers 的一个基本配置是 MLP 块中的扩展压缩率(隐藏维度是输入和输出维度的 4 倍)。通过添加 ConvNets 中使用的倒置瓶颈设计(其中输入使用 1×1 卷积扩展,然后通过深度卷积和 1×1 卷积收缩)来重现此功能。
此修改将准确率略微提高到 80.6%。
4.大内核大小
自 VGG 出现以来,ConvNet 的黄金标准是 3×3 内核。小内核导致了著名的局部感受野,与全局自注意相比,它的关注领域更加有限。尽管 Swin Transformers 重新引入了局部注意力的概念,但它们的窗口大小始终至少为 7×7。要探索更大的内核,首先要做的是在卷积之前移动深度卷积,以减少在如此昂贵的操作之前的通道数。第一次修改导致暂时下降到 79.9%,但是,尝试不同的大小,使用 7×7 窗口(更高的值不会对结果带来任何改变),作者能够再次达到 80.6% 的准确度.
5.微设计
最后添加了一些微设计选择:GELU 代替 ReLU、每个块的单个激活(原始转换器模块在 MLP 之后只有一个激活)、更少的归一化层、由层归一化替代的批量归一化以及单独的下采样层。
这些修改将准确率提高到 82.0%,并定义了最终模型,命名为 ConvNeXt。
该架构与 Swin Transformer 和 ResNet 的对比如下图所示。

结论
该模型完全基于卷积,与基于 Transformer 的架构相媲美,在 ImageNet 分类上达到了 87.8% 的 top-1 准确率。在其他任务中也获得了同样出色的结果,例如 COCO 上的对象检测和分割以及 ADE20K 上的语义分割。
对 ConvNets 进行现代化改造,将过去十年引入的所有概念添加到单个模型中的想法是对卷积的回报,而卷积最近被忽略了,以使Transformer受益。
论文:
https://arxiv.org/pdf/2201.03545.pdf
Github:
https://github.com/facebookresearch/ConvNeXt