Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2024 | 百度提出视觉新骨干ViT-CoMer,刷新密集预测任务SOTA

CVPR 2024 | 百度提出视觉新骨干ViT-CoMer,刷新密集预测任务SOTA

作者头像
CV君
发布于 2024-03-25 02:45:30
发布于 2024-03-25 02:45:30
2K0
举报

本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。

  • 论文链接:https://arxiv.org/pdf/2403.07392.pdf
  • 开源地址:https://github.com/Traffic-X/ViT-CoMer,(欢迎大家试用和star)

1.算法效果

1.1.炸裂结果

检测效果SOTA

在未增加额外训练数据的情况下,ViT-CoMer-L在目标检测benchmark COCO val2017上达到了64.3% AP。此前检测的SOTA算法为Co-DETR,在未增加额外数据时Co-DETR的效果为60.7% AP,使用ViT-CoMer替换原backbone(Swin-L)的同时采用了ViT-Adapter提供的BEiTv2*作为预训练,其检测效果可达64.3% AP,相比较其他同体量算法ViT-CoMer效果更优。

分割效果SOTA

ViT-CoMer-L在语义分割 benchmark ADE20K val上获得了62.1% mIoU,10亿参数量以下效果SOTA。基于Mask2Former分割算法,对比了ViT-CoMer和其他先进的骨干网络(如RevCol-H,ViT-Adapter-L等),从表7可以看出,在相似体量下,ViT-CoMer算法达到了SOTA的效果,甚至可媲美其他更大体量的模型(ViT-Adapter-G,1B参数)

小体积大能量

Small也可以当Large用,ViT-CoMer-S (1/6 ViT-L参数量 )取得与ViT-L相当的检测效果。基于经典的Mask R-CNN检测框架,我们跨体量跨骨干网络对比了在COCO数据集上的效果,惊喜的发现ViT-CoMer-Small(仅ViT-Large参数量的1/6)可以达ViT-Large相同效果,而当采用更先进的预训练时效果又出现了代差级的提升。

不同规模效果样样强

ViT-CoMer 在不同的参数规模下都可以获得SOTA效果。同样基于Mask-RCNN检测框架,我们对比了不同骨干网络在COCO数据集上的效果,不难发现,ViT-CoMer在不同参数规模、不同训练配置下效果均领先于其他先进的骨干网络。

1.2.性能

训推性能均强悍(Rebuttle内容,后续补充至github)

相同的效果下,ViT-CoMer在训练、推理性能(耗时更短)上都更优。基于Mask-RCNN检测框架,对比分析了ViT-Large、ViT-Adapter-Large和ViT-CoMer-Base-light三种方案的性能,可以看出ViT-CoMer-Base-light(使用少量的CTI模块)用更短的训练和推理时间,即可取得更好的效果。

1.3.可拓展性

零成本使用先进预训练

ViT-CoMer可以直接加载不同的预训练(如ImagNet-1K,ImageNet-22K,MM等)。基于Mask-RCNN检测和UperNet分割框架,依次使用Imagenet-1K,Imagenet-22K和多模态等预训练初始化ViT分支。从表3和表6中我们可以看出预训练越强,算法效果越好。

高效兼容不同算法框架

ViT-CoMer可以直接嵌入到不同的检测框架中。将ViT-CoMer迁移到Cascade Mask-RCNN,ATSS和GFL等检测框架中,从表2可以看出,ViT-CoMer效果较其他骨干网络更优。

轻松适配不同Transformer

CoMer不仅仅可以适配ViT框架,其他基准骨干网络(如Swin)也可以轻松适配。我们尝试将CoMer迁移到ViT之外的其他Transformer框架中,我们惊喜的发现,CoMer同样可以在其中发挥作用,从表11中可以看到,适配后X-CoMer效果相比较基准模型更优。

有效的PEFT策略(Rebuttle内容,后续补充至github)

CoMer也可以作为一种有效的PEFT策略使用。当我们freeze住ViT部分,只训练CoMer部分参数,可以看出CoMer效果要优于LoRA(ViT-CoMer-L(freeze ViT) > ViT-L(full-tune) > ViT-L(freeze ViT + LoRA))。

密集预测任务不是极限

除了密集预测任务之外,我们也尝试了ViT-CoMer在分类任务上的效果。我们在Imagenet数据集上对比了ViT和ViT-CoMer的结果,实验显示我们的算法依旧有很强的竞争力。

2.动机

当前Tranformer骨干网络处理密集预测任务存在以下问题:

  1. ViT骨干网络处理密集预测任务(检测、分割等)效果不佳;
  2. 特制骨干网络需要重新预训练,增加训练成本;
  3. 适配骨干网络仅对ViT和卷积特征进行信息交互,缺少不同尺度特征之间的信息交互。

针对以上三个问题,Vit-CoMer做了如下优化:

  • 针对问题1和2, 设计了一种新颖的密集预测骨干网络,它集成了ViT和CNN特征。由于网络保留了完整的ViT结构,所以可以有效地利用各种ViT开源预训练权重,同时网络融入多感受野空间多尺度卷积特征,解决了ViT特征之间缺乏交互以及表征尺度单一的问题。
  • 针对问题3, 设计了一种CNN-Transformer双向交互模块,不仅能够丰富与增强彼此之间的特征,还能同时进行层级之间多尺度特征的融合,从而得到更加丰富的语义信息,有利于处理密集预测任务。

3.方案

3.1.整体框架

ViT-CoMer网络架构十分简洁(如图3所示),其中ViT占主体(如红色框内1所示),适配一个轻量的CNN结构(如绿色框内所示)。整个结构包含2个关键模块:MRFP(如绿2)和CTI(如绿3)。其中MRFP主要作用是补充多尺度和局部特征信息。CTI的作用则是对不同架构特征信息进行增强。

3.2.多感受野特征金字塔模块(MRFP)

MRFP是由特征金字塔和多感受野卷积层组成。特征金字塔能提供丰富的多尺度信息,而后者通过不同的卷积核扩展感受野,增强了CNN特征的长距离建模能力。该模块如图4所示。

3.3.CNN-Transformer双向交互融合模块(CTI)

CTI是一种跨架构的特征融合方法,如图5所示。在不改变ViT的结构的情况下,引入了CNN的多尺度特征,由于ViT是单尺度特征,CNN为多尺度特征,在实现的时候直接将CNN中与ViT同尺度的特征进行相加(优势,简单高效)。同时对相加后的特征进行了多尺度自注意力操作,这样不同尺度的特征之间也进行了借鉴和增强。通过双向交互模块,CTI缓解了ViT中缺乏局部信息交互和非层次特征的问题,同时进一步增强了CNN的长距离建模和语义表征能力。

4.可视化效果

目标检测和实例分割可视化对比分析

与ViT相比:从图6可以看出,ViT-CoMer产生了更具层次感的多尺度特征,具备丰富的局部边缘和纹理,提升了目标检测和实例分割的效果。

与ViT-Adapter相比(Rebuttle内容,后续补充至github):从图1可以看出,ViT-Adapter和ViT-CoMer同时具备丰富的多尺度纹理信息,但是相比ViT-Adapter, ViT-CoMer的信息颗粒度更胜一筹。更细节的内容请阅读原文和代码。

Reference Xia, C., Wang, X., Lv, F., Hao, X., & Shi, Y. (2024). ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ViT-Adapter: 密集预测任务的ViT适配器
最近,Transformers 在计算机视觉领域取得了巨大成功。得益于动态建模能力和注意力机制的长程依赖性,各种 vision transformers 很快在物体检测和语义分割等许多计算机视觉任务中崭露头角,超越了 CNN 模型,达到了最先进的性能。这些模型主要分为两个系列,即普通 ViT 及其分层变体。一般来说,后者能产生更好的结果,并且被认为通过使用局部空间操作,在其架构中引入了视觉特有的归纳偏差。
用户1324186
2024/03/26
6580
ViT-Adapter: 密集预测任务的ViT适配器
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
模型参数的初始化一直是一个重要的研究问题,一个合适的初始化能够提升模型性能,加速收敛找到最优解。
磐创AI
2021/12/01
1K0
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
paper:https://arxiv.org/pdf/2203.16527.pdf
AIWalker
2022/04/27
1.2K0
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
正如标题所言「Attention is all you need」,Transformer已成为不同领域的「霸主」,包括计算机视觉、自然语言处理、语音处理和机器人技术。
新智元
2025/03/10
2090
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM:刷榜多个图像处理任务,代码已开源!
你是否厌倦了最新的Transformer/MLP模型的「不灵活性」和「高空间复杂度」?
Amusi
2022/04/18
1.6K0
CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM:刷榜多个图像处理任务,代码已开源!
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。
机器之心
2024/03/07
2810
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
用ViT替代卷积网络做密集预测,英特尔实验室提出DPT架构,在线Demo可用
机器之心报道 机器之心编辑部 在这项研究中,研究者提出了 DPT 架构。这种 ViT 架构代替了卷积网络作为密集预测任务的主干网络,获得了更好的细粒度和更全局一致的预测。 图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测。 当前,密集预测的架构几乎都是基于卷积网络的,且通常遵循一种模式:将网络分为一个编码器和一个解码器,编码器通常基于图像分类网络,也称为主干,它是在一个大型语料库 (如 ImageNet) 上进行预训练的;解码器聚合来自编码器的特
机器之心
2023/03/29
3780
用ViT替代卷积网络做密集预测,英特尔实验室提出DPT架构,在线Demo可用
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
图像分类、目标检测、图像分割等各类视觉技术都离不开骨干网络(backbone),一个强有力的骨干网络可以为模型带来更高的效率及精度,所以它的设计一直都是业界研究者关注的重点方向。
用户1386409
2020/11/06
6820
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。
机器之心
2022/02/23
5560
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
将大核卷积分三步,清华胡事民、南开程明明团队全新视觉骨干VAN,超越SOTA ViT和CNN
机器之心报道 编辑:小舟、杜伟 来自清华大学和南开大学的研究者提出了一种新型大核注意力(large kernel attention,LKA)模块,并在 LKA 的基础上构建了一种性能超越 SOTA 视觉 transformer 的新型神经网络 VAN。 作为基础特征提取器,视觉骨干(vision backbone)是计算机视觉领域的基础研究课题。得益于卓越的特征提取性能,CNN 成为过去十年中不可或缺的研究课题。在 AlexNet 重新开启深度学习十年之后,通过使用更深的网络、更高效的架构、更强的多尺度
机器之心
2022/03/04
4080
分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU
作者验证了ViT-Adapter在多个下游任务上的有效性,包括目标检测、实例分割和语义分割。尤其,使用HTC++时,ViT-Adapter-L得到了60.1 和52.1 ,在COCO test-dev上,超过 Swin-L 1.4 和1.0 。对于语义分割,ViT-Adapter-L在ADE20K val上建立了一个新的mIoU 60.5%,比SwinV2-G高0.6%。 开源地址:https://github.com/czczup/ViT-Adapter
集智书童公众号
2022/05/26
1.1K0
分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU
最新最全 | 视觉 Transformer 综述
快卷起来!还怕改进想不到idea吗?中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!
公众号机器学习与AI生成创作
2021/12/02
1.1K0
最新最全 | 视觉 Transformer 综述
NeurIPS 2021 | Twins:重新思考高效的视觉注意力模型设计
总第498篇 2022年 第015篇 Twins 是美团和阿德莱德大学合作提出的视觉注意力模型,相关论文已被 NeurIPS 2021 会议接收。本文主要讲述 Twins 解决的难点、设计和实现思路,以及在美团场景的探索落地,希望能对从事视觉算法研发的同学有所帮助和启发。 导读 背景 视觉注意力模型设计的难点 Twins 模型设计 Twins-PCPVT Twins-SVT 实验 ImageNet-1k 分类 ADE20K 分割 COCO 目标检测(Retina 框架) COCO 目标检测(Mask-RC
美团技术团队
2022/03/25
8290
车辆检测新突破:VFM-Det 如何用大模型提升识别精度?
现有的车辆检测器通常是基于预先训练好的骨干网(如ResNet、ViT),通过在车辆图像上训练典型的检测器(如YOLO、RCNN、DETR系列)获得的。一些研究人员还利用预训练的大型基础模型来提高检测性能。不过,我们认为这些检测器可能只能获得次优结果,因为它们使用的大型模型并不是专门为车辆设计的。此外,它们的结果严重依赖视觉特征,很少考虑车辆语义信息与视觉表征之间的一致性。在这项工作中,我们提出了一种基于预训练基础车辆模型(VehicleMAE)和大型语言模型(T5)的全新车辆检测范式,称为VFM-Det。它遵循基于区域提案的检测框架,每个提案的特征都可以通过VehicleMAE得到增强。更重要的是,我们提出了一个新的VAtt2Vec模块,可预测这些建议的车辆语义属性,并将其转换为特征向量,通过对比学习增强视觉特征。在三个车辆检测基准数据集上进行的广泛实验充分证明了我们的车辆检测器的有效性。具体来说,在城市景观数据集上,我们的模型在 AP0.5、AP0.75指标上分别比基线方法提高了+5.1%、+6.2%。
CoovallyAIHub
2025/05/06
1740
车辆检测新突破:VFM-Det 如何用大模型提升识别精度?
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
10 月 2 日,深度学习领域顶级会议 ICLR 2021 论文投稿结束,一篇将 Transformer 应用于图像识别的论文引起了广泛关注。
深度学习技术前沿公众号博主
2020/10/22
7200
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
即插即涨2-3%!AC-FPN:用于目标检测的注意力引导上下文的特征金字塔网络
AC-FPN——用于目标检测的注意力引导上下文的特征金字塔网络 ,即插即用的新FPN模 块,替换Cascade R-CNN、Mask R-CNN等网络中的FPN,可直接涨点2%-3%!
Amusi
2020/06/11
4.8K0
即插即涨2-3%!AC-FPN:用于目标检测的注意力引导上下文的特征金字塔网络
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
论文: Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
VincentLee
2024/05/22
2140
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。 这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。 但现在,何恺明团队的最新论文提出了不同的观点: 在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。 只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。 不对ViT引入分层设计 ViT可以说是打开了
OpenCV学堂
2022/04/02
4230
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
【他山之石】CVPR24|MASA开源:刷新监督学习SOTA,无监督多目标跟踪时代来临!
在计算机视觉的征途中,多目标跟踪(MOT)扮演着至关重要的角色,尤其是在自动驾驶等前沿技术领域。然而,现有技术大多受限于特定领域的标注视频数据集,这不仅限制了模型的泛化能力,也增加了应用成本。本文介绍的MASA(Matching Anything by Segmenting Anything)方法,以其创新的无监督学习策略,为多目标跟踪领域带来了革命性的突破。
马上科普尚尚
2024/07/05
5940
【他山之石】CVPR24|MASA开源:刷新监督学习SOTA,无监督多目标跟踪时代来临!
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主要研究了一种适用于目标检测任务的非层次化结构主流骨干网络ViTDet。该研究表明ViTDet无需重新设计用于预训练的分层主干网络,只对传统的FPN模块最后一个Stage进行微调(简化处理)即可。实验结果表明:若使用MAE(恺明大神一作提出的无监督学习方法)进行预训练,则ViTDet可以与之前强具竞争力的层次化主干网络(Swin和 MViTv2)的性能相匹敌。其中ViTDet+MAE仅在ImageNet-1K上进行预训练然后直接进行迁移便可以在COCO数据集上达到61.3 AP的性能。
深度学习技术前沿公众号博主
2022/04/18
8420
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
推荐阅读
ViT-Adapter: 密集预测任务的ViT适配器
6580
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
1K0
恺明团队新作ViTDet:探索ViT骨干在检测中的应用
1.2K0
英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈 | CVPR 2025
2090
CVPR 2022 Oral | MLP进军底层视觉!谷歌提出MAXIM:刷榜多个图像处理任务,代码已开源!
1.6K0
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
2810
用ViT替代卷积网络做密集预测,英特尔实验室提出DPT架构,在线Demo可用
3780
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
6820
当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
5560
将大核卷积分三步,清华胡事民、南开程明明团队全新视觉骨干VAN,超越SOTA ViT和CNN
4080
分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU
1.1K0
最新最全 | 视觉 Transformer 综述
1.1K0
NeurIPS 2021 | Twins:重新思考高效的视觉注意力模型设计
8290
车辆检测新突破:VFM-Det 如何用大模型提升识别精度?
1740
NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
7200
即插即涨2-3%!AC-FPN:用于目标检测的注意力引导上下文的特征金字塔网络
4.8K0
PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
2140
何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测
4230
【他山之石】CVPR24|MASA开源:刷新监督学习SOTA,无监督多目标跟踪时代来临!
5940
何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA
8420
相关推荐
ViT-Adapter: 密集预测任务的ViT适配器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档