一、论文信息
论文题目:Vision Transformer with Quadrangle Attention中文题目:具有四边形注意力机制的视觉Transformer论文链接:https://arxiv.org/pdf/2303.15105
所属单位:澳大利亚悉尼大学工程学院计算机科学系
核心速览:本文提出了一种名为“Quadrangle Attention (QA),四边形注意力”的新型视觉变换器注意力机制,旨在通过学习数据驱动的四边形配置来计算局部注意力,从而提高视觉变换器对不同大小、形状和方向物体的适应性。
二、论文概要
Highlight
图1:先前手工设计的窗口配置 (a)与所提出的可学习四边形设计(b)的比较,以及它们在ImageNet 验证集上不同输入尺寸设置下的图像分类性能(c)。
图7:QFormerh-T生成的四边形可视化。 该模型在ImageNet上进行了分类训练。
图8:QFormerh-T生成的四边形可视化。该模型在MS COCO上进行物体检测和实例分割的训练。
1. 研究背景:
2. 本文贡献:
三、创新方法
图2:窗口注意力的示意图 (a) 和提出的四边形注意力 (QA) (b)。
I、四边形注意力(Quadrangle Attention,QA)实现过程:
一、基础窗口生成
二、四边形生成
图 4:投影变换流程的示意图。(a) 默认窗口。(b) 计算相对于窗口中心的相对坐标 (x_c, y_c)。(c) 经过对相对坐标进行投影变换后得到目标四边形。(d) 通过加上窗口中心坐标来恢复绝对坐标。
三、相对坐标计算
图 5:使用绝对坐标对两个不同位置的窗口进行相同变换的比较。
四、采样策略
五、自注意力计算
使用采样得到的Kw;Vw和原始的Qw进行自注意力计算,计算公式为:
其中 r 是相对位置嵌入用来编码空间信息,在训练过程中是可学习的。
总结:四边形注意力通过数据驱动的方式动态确定每个窗口的位置、大小、方向和形状,从而允许模型更好地捕捉不同大小、方向和形状的对象,并捕获丰富的上下文信息。
II、四边形注意力(Quadrangle Attention,QA)的应用位置:
图3:传统窗口注意力块(a),提出的纯ViT中的QA(b),以及分层ViT(c)。
III、基于四边形注意力设计的QFormer:
图6:窗口注意力的流程图(a),提出的四边形注意力(QA) (b),以及带有提出的四边形注意力的变换器块QFormer的细节。
四、实验分析
1. 数据集与评估指标:在ImageNet-1k、ADE20k和MS COCO等知名公共数据集上进行实验,评估指标包括Top-1和Top-5准确率、平均精度均值(mAP)和交并比(IoU)。
2. 模型规格:QFormer模型包括不同层数和通道数的变体,例如QFormer h-T、QFormer h-S和QFormer h-B,以及对应的plain架构QFormerp-B。这些模型在不同任务上表现出色,具有不同的参数和计算复杂度。
3. 训练细节:使用AdamW优化器和不同的学习率调度策略进行训练,训练过程包括预训练和微调阶段。对于不同的下游任务,使用ImageNet-1k预训练权重进行初始化。
4. 实验结果:
图像分类:QFormer在ImageNet-1k数据集上的分类任务中表现出色,特别是在处理不同大小和形状的目标时。例如,QFormer h-T在224×224输入尺寸下达到了82.5%的Top-1准确率,比Swin-T高出1.3%。
目标检测与实例分割:在MS COCO数据集上,QFormer在目标检测和实例分割任务中均优于基线方法Swin-T。例如,QFormer h-T在使用Mask RCNN检测器时,相较于Swin-T在1×训练计划下提高了2.2 mAPbb和1.7 mAPmk。
语义分割:在ADE20k数据集上,QFormer在语义分割任务中也取得了优异的成绩。例如,QFormer h-T在512×512图像上达到了43.6 mIoU,比使用固定窗口注意力的ViT-B模型高出2.0 mIoU。
姿态估计:在MS COCO数据集上,QFormer在姿态估计任务中同样表现出色。例如,QFormer h-T在使用Mask RCNN检测器时,相较于Swin-T在1×训练计划下提高了0.6 APbbs、0.9 APblb和1.6 APmlk。
五、结论
1. 研究发现:提出的四边形注意力机制(QA)能够有效地从数据中学习注意力区域,显著提升了视觉变换器处理不同大小、形状和方向目标的能力。通过将QA集成到视觉变换器中,创建了QFormer架构,该架构在多个视觉任务上均表现出色,包括分类、目标检测、语义分割和姿态估计。
2. 解释与分析:QFormer通过学习适应性窗口配置,能够更好地建模长距离依赖关系,并促进跨窗口信息交换,从而学习到更好的特征表示。实验结果表明,QFormer在各种视觉任务上均优于现有的代表性视觉变换器,证明了QA的有效性和QFormer架构的优越性。
3. 意外发现:尽管QFormer在性能上有所提升,但其在推理速度上仅比Swin Transformer慢约13%,这表明QA在实现速度和准确性之间的更好权衡方面具有巨大潜力。此外,QFormer在处理不同尺度对象时表现出色,这表明其学习到的四边形能够适应各种形状和方向的目标。
六、代码与运行结果
温馨提示:对于所有推文中出现的代码,如果您在微信中复制的代码排版错乱,请复制该篇推文的链接,在任意浏览器中打开,再复制相应代码,即可成功在开发环境中运行!或者进入官方github仓库找到对应代码进行复制!
运行结果
七、附录
便捷下载 https://github.com/AIFengheshu/Plug-play-modules
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有