前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICLR 2022 | 首次实现用MLP做检测和分割!上科大和腾讯开源AS-MLP:一种轴向位移的MLP框架

ICLR 2022 | 首次实现用MLP做检测和分割!上科大和腾讯开源AS-MLP:一种轴向位移的MLP框架

作者头像
Amusi
发布于 2022-03-23 09:41:47
发布于 2022-03-23 09:41:47
1.1K0
举报
文章被收录于专栏:CVerCVer

AS-MLP:一种轴向位移的MLP框架,首次实现用MLP做检测分割

AS-MLP: An Axial Shifted MLP Architecture for Vision

单位:上海科技大学,腾讯优图

Paper: https://arxiv.org/abs/2107.08391

Code: https://github.com/svip-lab/AS-MLP

一、研究动机

在过去的十年中,卷积神经网络 (CNN) 已经受到了广泛的关注,并已成为计算机视觉中框架搭建的标准。随着对 self-attention 的深入探索和研究,基于 Transformer 的架构也逐渐出现。最近,基于 MLP 的网络框架被提出,其中几乎所有的网络参数都是从 MLP(线性层)中学习的,并取得了惊人的结果,可与类 CNN 模型相媲美。

这些惊人的结果推动了我们对基于 MLP 的架构的探索。在 MLP-Mixer中,该模型通过矩阵转置和 token-mixing 投影获得全局感受野,从而抓取了长距离依赖关系。然而,这很少充分利用局部信息,这在CNN 架构中是非常重要,因为并非所有像素都需要长距离依赖,而局部信息更侧重于提取低层特征。在基于Transformer的架构中,一些论文已经强调了局部感受野的优势,并在Transformer中引入了局部信息,如Localvit、NesT等。在这些想法的驱动下,我们主要探索局部性对基于 MLP 的架构的影响

为了在基于 MLP 的架构中引入局部性,一个最简单、最直观的想法是在 MLP-Mixer 中添加一个窗口,然后对窗口内的特征进行局部信息的 token-mixing 投影,就像在 Swin Transformer 中所做的一样。然而,对于基于 MLP 的架构,如果我们划分窗口 (例如,7 x 7) 并在窗口中执行 token-mixing 投影,如果共享线性层,那么将只有 49 x 49 的参数,这极大地限制了模型容量,从而影响参数的学习和最终结果。如果不共享线性层,由于固定的 MLP 维度,模型将无法应用于下游任务。因此,我们为基于 MLP 的架构提出了一种轴向位移策略,我们在水平和垂直方向上空间移动特征。轴向位移可以将不同空间位置的特征排列在相同的位置。之后,使用 MLP 来组合这些功能,简单而有效。这种方法使模型能够获得更多的局部依赖,从而提高性能。它还使我们能够像卷积核一样设计 MLP 结构,例如设计核大小和膨胀率。

基于轴向位移策略,我们设计了轴向位移的 MLP 架构,命名为 AS-MLP。我们的 AS-MLP 在 ImageNet-1K 数据集中使用 88M 参数和 15.2 GFLOP 获得 83.3% Top-1 准确率,无需任何额外的训练数据。与基于Transformer的架构相比,这种简单而有效的方法优于所有基于 MLP 的架构,并实现了具有竞争力的性能。AS-MLP 架构也可以转移到下游任务,例如目标检测。据我们所知,这也是第一个将基于 MLP 的架构应用于下游任务的工作。使用 ImageNet-1K 数据集中的预训练模型,AS-MLP 在 COCO 验证集上获得 51.5 mAP,在 ADE20K 数据集上获得 49.5 MS mIoU,与基于Transformer的架构相比具有竞争力。

二、具体的网络结构

总体的网络结构如图一所示,AS-MLP一共有四个stage,对于图像分类任务,输入分辨率为224,在经过不同的stage时分辨率逐渐降低,最终的输出将使用交叉熵损失做图像分类。

图一:AS-MLP网络框架。

图二显示了在每个stage中AS-MLP block的结构以及轴向位移的过程。经过channel projection之后特征被分别使用vertical shift和horizontal shift来提取特征,得到的结果进行相加。在水平位移的过程中,来自不同位置的特征将被重新组合,之后通过MLP。

图二:(a)显示了AS-MLP块。(b)显示了水平位移。

我们也对不同操作的感受野进行了分析,图三显示了神经网络中不同操作的感受野。在AS-MLP中,我们能使用不同的shift size和dilation rate,因此使得网络具有不同的感受野。例如,图四中的第六张图显示了当shift size为3,dilation rate为2时候的感受野大小。

图三:神经网络中不同操作的感受野。

图四显示了AS-MLP框架的各种变种。不同的框架配置具有不同的参数量和计算量,用于与其他方法进行公平的结果比较。

图四:AS-MLP不同的框架配置。

三、实验结果

(一)在ImageNet-1K数据集上的图像分类性能

表一显示了所有网络在图像分类任务上的结果。我们将所有网络架构分为基于 CNN、基于 Transformer 和基于 MLP 的架构。输入分辨率为 224 x 224。当保持相似的参数量和计算量时,我们提出的 AS-MLP 优于其他基于 MLP 的架构。例如,AS-MLP-S 获得了83.1%的准确度,这优于 Mixer-B/16 (76.4%) 和 ViP-Medium/7 (82.7\%)。此外,与基于Transformer的网络框架相比,它获得了具有竞争力的性能。例如 AS-MLP-B 获得了83.3%的准确度,这与Swin-B的性能相当,显示了我们的 AS-MLP 框架的有效性。

表一:在ImageNet-1K数据集上不同网络框架的实验结果

(二)在COCO数据集上的目标检测性能

目标检测和实例分割的结果见表二,值得注意的是,我们没有将我们的方法与 MLP-Mixer 进行比较,因为它使用固定的空间维度进行 MLP操作,目标检测的输入尺寸不是固定的,因此不能迁移到目标检测中。据我们所知,我们是第一个将基于 MLP 的架构应用于目标检测的工作。我们的 AS-MLP 在类似的资源限制下实现了与 Swin Transformer 相当的性能。具体来说,Cascade Mask R-CNN + Swin-B在145M参数下达到51.9

,Cascade Mask R-CNN + AS-MLP-B在145M参数下获得51.5

。图五也显示了目标检测和实例分割的结果。

表二:在COCO数据集上的目标检测和实例分割的性能。

图五:目标检测和实例分割的结果

(三)在ADE20K数据集上的语义分割性能

表三显示了我们的 AS-MLP 在 ADE20K 数据集上的性能。请注意,我们也是第一个将基于 MLP 框架应用于语义分割的工作。在更少的计算量的情况下,AS-MLP-T 取得了比 Swin-T 更好的结果(46.5 vs. 45.8 MS mIoU)。对于大型模型,UperNet + Swin-B 有着 49.7 MS mIoU,121M 参数和 1188 GFLOPs,UperNet + AS-MLP-B 有 49.5 MS mIoU,121M 参数和 1166 GFLOPs,这也显示了我们 的AS-MLP在处理下游任务时的有效性。图六也显示了我们的方法在ADE20K数据集上的语义分割的结果。

表三:不同的方法在ADE20K验证集上的语义分割性能。

图六:语义分割的结果

四、结论

提出一种轴向位移的MLP框架,首次实现用MLP做检测分割。本文将更多的注意力放在局部的特征提取上,进一步提升了MLP-based框架的性能,实验结果也是令人印象深刻的。代码也是十分简洁,在ImageNet-1K数据集上以88M的参数和15.2 GFLOPs能达到83.3%的准确率。

本文算是一个比较基本的baseline,在下游任务上的表现也仅仅和transformer相近,笔者认为在下游任务上仍然有很大的提升空间。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CycleMLP:一种用于密集预测的mlp架构
CycleMLP由香港大学、商汤科技研究院和上海人工智能实验室共同开发,在2022年ICLR上发布。
deephub
2023/02/01
7240
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV10目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV10系列模型注入了新的活力。
AI浩
2024/10/22
5590
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
MLP 又又又升级了!港大&商汤开源首个用于检测与分割任务的MLP架构
本文针对MLP-Mixer等已有方案存在的分辨率相关、不便于向下游任务迁移的问题,提出了一种新颖的CycleFC操作,并由此构建了CycleMLP架构。本文非常漂亮的一个操作:通过对ChannelFC的采样点引入更高感受野升级为CycleFC,提升感受野的同时保持计算量不变。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/07/29
9750
MLP 又又又升级了!港大&商汤开源首个用于检测与分割任务的MLP架构
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet
机器之心转载 来源:知乎 作者:丁霄汉 你有多久没调过 kernel size 了?虽然常常被人忽略,但只要将其简单加大,就能给人惊喜。 当你在卷积网络(CNN)的深度、宽度、groups、输入分辨率上调参调得不可开交的时候,是否会在不经意间想起,有一个设计维度 kernel size,一直如此显而易见却又总是被忽视,总是被默认设为 3x3 或 5x5? 当你在 Transformer 上调参调得乐不思蜀的时候,是否希望有一种简单、高效、部署容易、下游任务性能又不弱于 Transformer 的模型,带
机器之心
2022/03/18
1.7K0
Hire-MLP: 华为诺亚提出分层重排MLP,性能高达83.4%
arXiv: 2108.13341:https://arxiv.org/pdf/2108.13341.pdf
AIWalker
2021/09/17
9690
Hire-MLP:  华为诺亚提出分层重排MLP,性能高达83.4%
ConvMLP:你见过长得像CNN的MLP吗?UO&UIUC提出了用于视觉任务的层次卷积MLP
本文分享论文『ConvMLP: Hierarchical Convolutional MLPs for Vision』,由 UO&UIUC 提出 ConvMLP:一个用于视觉识别的层次卷积MLP,且是一个轻量级、阶段级、具备卷积层和MLP的设计。ConvMLP在ImageNet-1k、2.4G MACs和9M参数量上达到了76.8% 的Top-1精度。
CV君
2021/09/27
1.2K0
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
code:https://github.com/google-research/vision_transformer(暂未开源)
AIWalker
2021/05/24
1.3K0
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。
机器之心
2022/02/23
5560
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
颜水成发了个「简单到令人尴尬」的视觉模型,证明Transformer威力源自其整体架构
后续研究又发现不用注意力换成Spatial MLP效果也很好,甚至使用傅立叶变换模块也能保留97%的性能。
量子位
2021/12/02
5370
颜水成发了个「简单到令人尴尬」的视觉模型,证明Transformer威力源自其整体架构
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。这种「纵观全局 - 聚焦细节(Overview-first-Look-Closely-next)」的双阶段认知机制是人类视觉系统强大的主要原因之一,也被称为 Top-down Attention。
机器之心
2025/03/31
1190
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。
机器之心
2021/04/21
5690
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV8目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV8系列模型注入了新的活力。
AI浩
2024/10/22
7560
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。
机器之心
2024/06/04
1790
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位。在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图像识别SOTA性能的关键 。为此,作者基于现有的基于MLP的视觉模型,建立了一个无注意力网络sMLPNet。
CV君
2021/09/27
1.1K0
超轻超快Backbone | MobileNet+ViT可以起飞吗?MOTA可以带你重新设计!
视觉社区见证了自注意力和 Transformer 的盛行。Transformer 在自然语言处理方面的成功推动了其视觉识别变体的创建。视觉 Transformer (ViT)具有很强的全局感受野表示能力。然而,它需要对大型专有数据集进行预处理。当用少量图像进行训练时,它的表现令人不满意,需要更好的训练配置或架构设计。
集智书童公众号
2023/09/04
6690
超轻超快Backbone | MobileNet+ViT可以起飞吗?MOTA可以带你重新设计!
谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?
近日,谷歌大脑团队新出了一篇论文,题目为《MLP-Mixer: An all-MLP Architecture for Vision 》,这篇论文是原视觉Transformer(ViT)团队的一个纯MLP架构的尝试。
AI算法修炼营
2021/05/11
9620
谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?
MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!
【导读】随着ResMLP、MLP-Mixer等文章的提出,基于MLP的backbone重新回到了CV领域。在图像识别方面,基于MLP的结构具有较少的inductive bias,但是依旧能够达到与CNN和Vision Transformer相当的性能。那么,MLP在其它下游视觉任务的效果如何呢?自6,7月份以来,MLP正式进军下游视觉任务,在检测与分割领域纷纷推出了最强MLP架构,本文我们将对近期在检测与分割领域最新MLP架构进行梳理总结,主要包括:上科大&腾讯优图开源AS-MLP, 香港大学&商汤科技提出的CycleMLP, 百度提出的目前最强视觉MLP架构S2-MLP(V1-V2).
深度学习技术前沿公众号博主
2021/09/06
1.4K0
MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!
视觉变换器与混合模型的图像识别
​ 计算机视觉,作为人工智能领域的关键分支,其发展历程可划分为两个主要阶段:早期基于规则的方法和现代基于深度学习的技术。在早期阶段,研究者依赖于手工设计的特征提取方法,例如SIFT和SURF算法,这些方法虽然在特定应用上取得了成功,但它们的普适性和可扩展性受限,通常需要专业知识来定制特征提取器。随着深度学习技术的兴起,计算机视觉领域迎来了革命性的变化。卷积神经网络(CNNs)的出现,使得计算机能够自动从图像中学习特征表示,极大地推动了图像分类、目标检测和图像分割等任务的发展。CNNs之所以有效,是因为它们模仿了人类视觉系统的工作方式,通过卷积层捕捉局部特征,并通过池化层减少特征的空间维度,同时增强对图像位移的不变性。
Srlua
2024/12/20
2190
视觉变换器与混合模型的图像识别
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
图像分类与视频分类任务性能比较(上方为 ImageNet 上 224x224 与 384x384 分辨率输入)
机器之心
2022/02/23
1K0
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用
机器之心专栏 机器之心编辑部 来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 的关键,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。 视觉 Transformer 的最新进展表明,在基于点积自注意力的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 背后的关键成分,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。作者提出了递归门卷积( ),它用门卷积和递归
机器之心
2022/09/08
8840
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用
推荐阅读
CycleMLP:一种用于密集预测的mlp架构
7240
YoloV10改进策略:BackBone改进|Swin Transformer赋能YoloV10,性能跃升的新篇章
5590
MLP 又又又升级了!港大&商汤开源首个用于检测与分割任务的MLP架构
9750
大到31x31的超大卷积核,涨点又高效,一作解读RepLKNet
1.7K0
Hire-MLP: 华为诺亚提出分层重排MLP,性能高达83.4%
9690
ConvMLP:你见过长得像CNN的MLP吗?UO&UIUC提出了用于视觉任务的层次卷积MLP
1.2K0
新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力、纯MLP构成的视觉架构
1.3K0
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
5560
颜水成发了个「简单到令人尴尬」的视觉模型,证明Transformer威力源自其整体架构
5370
卷积网络又双叒叕行了?OverLoCK:一种仿生的卷积神经网络视觉基础模型
1190
霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
5690
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
7560
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
1790
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
1.1K0
超轻超快Backbone | MobileNet+ViT可以起飞吗?MOTA可以带你重新设计!
6690
谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构!网友:MLP is All You Need ?
9620
MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!
1.4K0
视觉变换器与混合模型的图像识别
2190
物尽其用,卷积和自注意力在Transformer中实现统一:多SOTA、ICLR 2022接收
1K0
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用
8840
相关推荐
CycleMLP:一种用于密集预测的mlp架构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档