前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[CVPR | 论文简读] 基于信息分流的多尺度自注意力机制

[CVPR | 论文简读] 基于信息分流的多尺度自注意力机制

作者头像
智能生信
发布2022-12-29 17:08:25
3440
发布2022-12-29 17:08:25
举报
文章被收录于专栏:智能生信智能生信

简读分享 | 汪逢生 编辑 | 乔剑博

论文题目

Shunted Self-Attention via Multi-Scale Token Aggregation

论文摘要

最近的 Vision Transformer (ViT) 模型在各种计算机视觉任务中取得了不错的结果,这要归功于它通过自我注意对图像块或标记的长期依赖关系进行建模的能力。然而这些模型通常指定每一层内每个标记特征的相似感受野。这种约束不可避免地限制了每个自注意力层捕获多尺度特征的能力,从而导致在处理具有不同尺度的多个对象的图像时性能下降。为了解决这个问题,作者提出了一种新颖的通用策略,称为分流自我注意 (SSA),它允许 ViT 在每个注意层的混合尺度上对注意进行建模。SSA 的关键思想是将异构感受野大小注入到token中:在计算自注意力矩阵之前,它选择性地合并token以表示更大的对象特征,同时保留某些token以保留细粒度的特征。这种新颖的合并方案使self-attention能够学习不同大小的对象之间的关系,同时减少token数量和计算成本。各种任务的广泛实验证明了 SSA 的优越性。具体来说,基于 SSA 的 Transformer 实现了 84.0% 的 Top-1 准确率,并且在 ImageNet 上以只有一半的模型大小和计算成本超过了最先进的Focal Transformer,并且在 COCO 上超过了 Focal Transformer 1.3 mAP在相似的参数和计算成本下,ADE20K 上为 2.9 mIOU。

论文链接

https://arxiv.org/abs/2111.15193

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档