高分辨率图像提供了更多关于场景的信息,可以提高模型准确性。然而,计算机视觉中占主导地位的模型架构——视觉Transformer(ViT),在未经微调的情况下无法有效利用更大的图像。ViT在测试时外推到更多patches的能力较差,尽管Transformer在序列长度上具有灵活性。作者认为这一缺陷源于当前的patch位置编码方法,这些方法在外推时会产生分布偏移。作者提出了一种用于普通ViT位置编码的即插即用替换方法,通过2D注意力掩码将注意力头限制在固定视野内,指向不同方向。作者的新方法称为LookHere,提供了平移等变性,确保注意力头多样性,并限制了注意力头在外推时面临的分布偏移。作者展示了LookHere在分类(平均提升1.6%)、对抗攻击(平均提升5.4%)和校准误差(平均降低1.5%)方面的改进——在ImageNet上无需外推。在外推情况下,LookHere在ImageNet上训练于224²像素并测试于1024²像素时,表现优于当前最先进的位置编码方法2D-RoPE,提升了21.7%。此外,作者发布了一个高分辨率测试集,以改进高分辨率图像分类器的评估,称为ImageNet-HR。
视觉Transformer,位置编码,外推,高分辨率图像,注意力机制
设计动机。作者引入了2D注意力掩码,为每个注意力头分配一个方向和一个视野(FOV),防止注意力超出头的FOV。在头的FOV内,根据patches之间的相对距离偏置注意力分数。这一设计的三个想法激发了作者的灵感。
设计消融。通过广泛的消融实验(附录A.6),作者得出了四个结论:
计算。是预先计算并固定的,从学习到的注意力矩阵中逐元素减去它只需要次浮点运算(FLOPs)每层。对于ViT-B/16模型,这些减法占总共FLOPs的0.016%。LookHere通过不将位置嵌入添加到patch嵌入中来减少FLOPs,但这一数量也是微不足道的。此外,LookHere矩阵提供了结构化稀疏性(对于45°FOV,最多可达7/8),可以加速注意力——尽管这需要自定义内核,作者将其留待未来工作。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有