Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场

前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场

作者头像
机器之心
发布于 2021-06-08 02:03:04
发布于 2021-06-08 02:03:04
9380
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:杜伟、陈萍

最近一段时间,多层感知机(MLP)成为 CV 领域的重点研究对象,谷歌、清华大学等机构的研究者先后提出了纯 MLP 构建的视觉架构和新的注意力机制,这些研究将 CV 的研究重心重新指向 MLP。近日,Facebook 提出了具有数据高效训练、用于图像分类的纯 MLP 架构 ResMLP,当采用现代的训练方法时,该架构在 ImageNet 数据集上实现了相对不错的性能。

前几天,谷歌提出的 MLP-Mixer 引爆 CV 圈,无需卷积、注意力机制,仅需 MLP 即可实现与 CNN、ViT 相媲美的性能。

同样地,清华大学的 Jittor 团队提出了一种新的注意机制,称之为「External Attention」,基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代现有流行的学习架构中的「Self-attention」,进一步揭示了线性层和注意力机制之间的关系;此外,清华大学丁贵广团队将 MLP 作为卷积网络的一种通用组件实现多种任务性能提升。

MLP->CNN->Transformer->MLP 圈似乎已成为一种趋势。

近日,来自 Facebook 的研究者进一步推动了这一趋势,他们提出了 ResMLP(Residual Multi-Layer Perceptron ),一种用于图像分类的纯多层感知机(MLP)架构。

论文链接:https://arxiv.org/pdf/2105.03404.pdf

该架构极为简单:它采用展平后的图像 patch 作为输入,通过线性层对其进行映射,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。

该架构是受 ViT 的启发,但更加简单:不采用任何形式的注意力机制,仅仅包含线性层与 GELU 非线性激活函数。该体系架构比 Transformer 的训练要稳定,不需要特定 batch 或者跨通道的标准化(如 Batch-Norm、 GroupNorm 或 LayerNorm)。训练过程基本延续了 DeiT 与 CaiT 的训练方式。

由于 ResMLP 的线性特性,模型中的 patch 交互可以很容易地进行可视化、可解释。尽管第一层学习到的交互模式与小型卷积滤波器非常类似,研究者在更深层观察到 patch 间更微妙的交互作用,这些包括某些形式的轴向滤波器(axial filters)以及网络早期长期交互。

架构方法

ResMLP 的具体架构如下图 1 所示,采用了路径展平(flattening)结构:

整体流程

ResMLP 以 N×N 非重叠 patch 组成的网格作为输入,其中 N 通常为 16。然后,这些非重叠 patch 独立地通过一个线性层以形成 N^2 个 d 维嵌入。接着,生成的 N^2 个 d 维嵌入被馈入到一个残差 MLP 层序列中以生成 N^2 个 d 维输出嵌入。这些输出嵌入又被平均为一个表征图像的 d 维向量,这个 d 维向量被馈入到线性分类器中以预测与图像相关的标签。训练中使用到了交叉熵损失。

残差多感知机层

网络序列中的所有层具有相同的结构:线性子层 + 前馈子层。类似于 Transformer 层,每个子层与跳远连接(skip-connection)并行。研究者没有使用层归一化(LayerNormalization),这是因为当使用公式(1)中的 Affine 转换时,即使没有层归一化,训练也是稳定的。

研究者针对每个残差块都使用了两次 Affine 转换。作为预归一化,Aff 替代了层归一化,并不再使用通道级统计(channel-wise statistics)。作为残差块的后处理,Aff 实现了层扩展(LayerScale),因而可以在后归一化时采用与 [50] 中相同的小值初始化。这两种转换在推理时均集成至线性层。

此外,研究者在前馈子层中采用与 Transformer 中相同的结构,并且只使用 GELU 函数替代 ReLU 非线性。

与 Transformer 层的主要区别在于,研究者使用以下公式(2)中定义的线性交互替代自注意力:

与 ViT 的关联

ResMLP 是 ViT 模型的大幅度简化,但具有以下几个不同点:

  • ResMLP 没有采用任何自注意力块,使用的是非线性(non-linearity)的线性 patch 交互层;
  • ResMLP 没有采用额外的「类(class)」token,相反只使用了平均池化;
  • ResMLP 没有采用任何形式的位置嵌入,不需要的原因是 patch 之间的线性通信模块考虑到了 patch 位置;
  • ResMLP 没有采用预层归一化,相反使用了简单的可学习 affine 转换,从而避免了任何形式的批和通道级统计。

实验结果

研究者在 ImageNet-1k 数据集上训练模型,该数据集包含 1.2M 张图像,平均分布在 1000 个对象类别中。他们在实验中采用了两种训练范式:监督学习和知识蒸馏。

首先,研究者将 ResMLP 与 Transformer、convnet 在监督学习框架下进行了比较,如下表 1 所示,ResMLP 取得了相对不错的 Top-1 准确率。

其次,利用知识蒸馏提高模型的收敛性,结果如下表 2 所示。与 DeiT 模型类似,ResMLP 可以从 convnet 蒸馏中显著获益。

实验还评估了 ResMLP 在迁移学习方面的性能。下表 3 展示了不同网络架构在不同图像基准上的性能表现,数据集采用了 CIFAR-10、CIFAR100、Flowers-1022、 Stanford Cars 以及 iNaturalist 。

权重稀疏性测量也是研究者的关注点之一。下图 2 的 ResMLP-24 线性层的可视化结果表明线性通信层是稀疏的,并在下图 3 中进行了更详细的定量分析。结果表明,所有三个矩阵都是稀疏的,实现 patch 通信的层明显更稀疏。

最后,研究者探讨了 MLP 的过拟合控制,下图 4 控制实验中探索了泛化问题。

参考链接:https://bbs.cvmart.net/post/4750

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
https://github.com/open-mmlab/awesome-vit
OpenMMLab 官方账号
2022/02/28
3.2K0
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
7 Papers & Radios | 纯MLP图像分类架构;基于强注意力的跟踪器网络
论文 1: Counterfactual Zero-Shot and Open-Set Visual Recognition
机器之心
2021/06/08
6000
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?
机器之心报道 编辑:蛋酱 Transformer 近年来已成为视觉领域的新晋霸主,这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用?。 Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。 近日,一位名为 Nikola
机器之心
2022/03/24
3.8K0
CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声
5月4日,谷歌团队在arXiv上提交了一篇论文《MLP-Mixer: An all-MLP Architecture for Vision》,引起了广大计算机视觉的研究人员的热烈讨论。
AI科技评论
2021/05/19
7350
CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声
Vision Transformer 必读系列之图像分类综述(一): 概述
https://github.com/open-mmlab/awesome-vit
OpenMMLab 官方账号
2022/02/28
2.7K0
Vision Transformer 必读系列之图像分类综述(一): 概述
MLP给视觉研究带来潜在惊喜?近期MLP图像分类工作概览分析
图像分类(image classification)一直都是计算机视觉研究中非常基础且重要的一类任务,在深度学习为主导的近十年中已经普遍继承了通用卷积神经网络(CNN)的基本范式,大部分思路多着眼于不同网络模型的设计和模块创新,少有直接对卷积神经网络本身既定框架的颠覆性工作。Transformer 在自然语言处理任务上获得成功之后,注意力机制(attention)在视觉任务方向也获得很多关注和应用,它们中的大多数工作也被认为是十分有效的性能提升部分。
机器之心
2021/06/08
8880
2021年机器学习什么风向?谷歌大神Quoc Le:把注意力放在MLP上
技术潮流总有变化的时候——到了 2021 年,风向似乎变成了多层感知机(MLP)。近日,谷歌大脑 Quoc Le 等人的一项研究对注意力层的必要性提出了质疑,并提出了一种具有空间门控单元的无注意力网络架构 gMLP,在图像分类和掩码语言建模任务上均实现了媲美 Transformer 的性能表现。
机器之心
2021/06/08
5820
Vision Transformer 必读系列之图像分类综述(二): Attention-based
https://github.com/open-mmlab/awesome-vit
OpenMMLab 官方账号
2022/02/28
2K0
Vision Transformer 必读系列之图像分类综述(二): Attention-based
归纳偏置多余了?靠“数据堆砌”火拼Transformer,MLP架构可有胜算?
起因是,谷歌在《MLP-Mixer: An all-MLP Architecture for Vision》论文中提出,无需卷积模块和注意力机制,纯MLP架构也可以达到与Transformer与CNN相媲美的图像分类性能。
深度学习技术前沿公众号博主
2021/08/05
1K0
归纳偏置多余了?靠“数据堆砌”火拼Transformer,MLP架构可有胜算?
MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。
AI算法与图像处理
2021/05/10
7610
MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
LeViT:Facebook提出推理优化的混合ViT主干网络 | ICCV 2021
论文: LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference
VincentLee
2024/07/16
1970
LeViT:Facebook提出推理优化的混合ViT主干网络 | ICCV 2021
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
在深度学习的广阔领域中,目标检测作为计算机视觉的基石任务之一,始终吸引着研究者的广泛关注。近期,我们大胆尝试将前沿的PoolFormer主干网络引入经典的目标检测框架YoloV8中,这一创新性融合不仅为YoloV8注入了新的活力,更在检测精度与效率上实现了双重飞跃,成为目标检测领域的一股强劲新风。
AI浩
2024/10/22
4860
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位。在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图像识别SOTA性能的关键 。为此,作者基于现有的基于MLP的视觉模型,建立了一个无注意力网络sMLPNet。
CV君
2021/09/27
1.1K0
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
大规模预训练的Vision TRansformer,如ViT, CvT和Swin,由于其高性能和下游任务的优越性能,最近引起了极大的关注。然而,它们通常涉及巨大的模型尺寸和大量的训练数据。例如,ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型,才实现了图像分类的最先进性能。同时,Swin使用2-3亿个参数,并在ImageNet-22K上进行了预训练,以在下游检测和分割任务上取得良好的性能。
集智书童公众号
2022/05/26
6980
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !
计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。
AI科技大本营
2021/06/08
7610
谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !
What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度
Vision transformers已成为计算机视觉任务的重要模型之一。虽然它们优于早期的卷积网络,但使用传统的自注意力算法时,其复杂度是
集智书童公众号
2021/10/25
1.1K0
What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度
GFNet | MLP领域再发力,清华大学提出将FFT思想用于空间信息交互
。虽然这篇文章的指标对比最新的VOLO、ViP等不算高,不过它为相关架构设计提供了一个非常不错的思路,值得学习。
AIWalker
2021/07/29
9680
GFNet | MLP领域再发力,清华大学提出将FFT思想用于空间信息交互
还需要“注意力层”吗?一堆“前馈层”在ImageNet上表现得出奇得好
简单来说,就是不需要卷积模块、注意力机制,就可以达到与CNN、Transformer相媲美的图像分类性能。
量子位
2021/05/11
3620
还需要“注意力层”吗?一堆“前馈层”在ImageNet上表现得出奇得好
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。
deephub
2023/08/28
3000
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)
本文的工作利用了基于注意力体系结构中的最新发现,该体系结构在高度并行处理硬件上具有竞争力。作者从卷积神经网络的大量文献中重新评估了原理,以将其应用于Transformer,尤其是分辨率降低的激活图。同时作者还介绍了Attention bias,一种将位置信息集成到视觉Transformer中的新方法。
集智书童公众号
2021/05/28
1.6K0
推荐阅读
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
3.2K0
7 Papers & Radios | 纯MLP图像分类架构;基于强注意力的跟踪器网络
6000
一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?
3.8K0
CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声
7350
Vision Transformer 必读系列之图像分类综述(一): 概述
2.7K0
MLP给视觉研究带来潜在惊喜?近期MLP图像分类工作概览分析
8880
2021年机器学习什么风向?谷歌大神Quoc Le:把注意力放在MLP上
5820
Vision Transformer 必读系列之图像分类综述(二): Attention-based
2K0
归纳偏置多余了?靠“数据堆砌”火拼Transformer,MLP架构可有胜算?
1K0
MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
7610
LeViT:Facebook提出推理优化的混合ViT主干网络 | ICCV 2021
1970
YoloV8改进策略:BackBone改进|PoolFormer赋能YoloV8,视觉检测性能显著提升的创新尝试
4860
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
1.1K0
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
6980
谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !
7610
What?UFO! | UFO-ViT用X-Norm让你的Transformer模型回归线性复杂度
1.1K0
GFNet | MLP领域再发力,清华大学提出将FFT思想用于空间信息交互
9680
还需要“注意力层”吗?一堆“前馈层”在ImageNet上表现得出奇得好
3620
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
3000
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)
1.6K0
相关推荐
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档