NIPS 2024 | LookHere: 具有定向注意力的视觉Transformer实现泛化和外推

小白学视觉

发布于 2024-12-31 04:32:12

1300

文章被收录于专栏：深度学习和计算机视觉深度学习和计算机视觉

论文信息

题目：LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate

LookHere: 具有定向注意力的视觉Transformer实现泛化和外推

作者：Anthony Fuller, Daniel G. Kyrollos, Yousef Yassin, James R. Green

论文创新点

定向注意力机制：作者提出了一种名为LookHere的新型位置编码方法，通过2D注意力掩码将注意力头限制在固定视野内，并指向不同方向。这种设计不仅提供了平移等变性，还确保了注意力头多样性，从而提高了模型的泛化能力和外推性能。
减少分布偏移：LookHere通过限制注意力头的视野和方向，有效减少了在外推过程中由于引入新的位置嵌入而产生的分布偏移。
高分辨率测试集：作者引入了ImageNet-HR，这是第一个原生高分辨率的ImageNet测试集（1024²像素），旨在更好地评估高分辨率图像分类器的性能。
外推性能提升：通过实验，作者展示了LookHere在外推性能上的显著提升。特别是在从224²像素训练并在1024²像素测试时，LookHere的表现优于当前最先进的2D-RoPE方法，提升了**21.7%**。

摘要

高分辨率图像提供了更多关于场景的信息，可以提高模型准确性。然而，计算机视觉中占主导地位的模型架构——视觉Transformer（ViT），在未经微调的情况下无法有效利用更大的图像。ViT在测试时外推到更多patches的能力较差，尽管Transformer在序列长度上具有灵活性。作者认为这一缺陷源于当前的patch位置编码方法，这些方法在外推时会产生分布偏移。作者提出了一种用于普通ViT位置编码的即插即用替换方法，通过2D注意力掩码将注意力头限制在固定视野内，指向不同方向。作者的新方法称为LookHere，提供了平移等变性，确保注意力头多样性，并限制了注意力头在外推时面临的分布偏移。作者展示了LookHere在分类（平均提升1.6%）、对抗攻击（平均提升5.4%）和校准误差（平均降低1.5%）方面的改进——在ImageNet上无需外推。在外推情况下，LookHere在ImageNet上训练于224²像素并测试于1024²像素时，表现优于当前最先进的位置编码方法2D-RoPE，提升了21.7%。此外，作者发布了一个高分辨率测试集，以改进高分辨率图像分类器的评估，称为ImageNet-HR。

关键字

视觉Transformer，位置编码，外推，高分辨率图像，注意力机制

3. LookHere

设计动机。作者引入了2D注意力掩码，为每个注意力头分配一个方向和一个视野（FOV），防止注意力超出头的FOV。在头的FOV内，根据patches之间的相对距离偏置注意力分数。这一设计的三个想法激发了作者的灵感。

注意力头多样性：头经常学习冗余算法，可以通过修剪来减少准确性损失。从机制的角度来看，作者可以将注意力头视为一个子网络的集合，它们“完全并行操作，并将它们的输出添加回残差流”，残差流被映射到logits。多样性一直是集成模型的理想属性，通过将注意力头限制在不同方向上可以确保多样性。
注意力头一致性：头经常学习可解释的空间算法，例如“关注查询上方的区域”，这可以可靠地从查询上方的内部表示中检索信息；然而，作者认为这些类型的空间算法在引入新的或修改的位置嵌入以编码新patch位置时可能会失败——例如，误导模型关于查询上方的信息。作者相信，通过硬编码方向和距离（通过注意力掩码和偏差），可以减少模型学习自己的空间算法的需要。
平移等变性一直是视觉模型的理想属性，有助于卷积网络的成功。ViT因其弱归纳偏差而受到批评，导致从头训练时的样本效率低下。作者相信，LookHere通过方向掩码和距离惩罚实现的更强归纳偏差可以提高ViT的样本效率。

设计消融。通过广泛的消融实验（附录A.6），作者得出了四个结论：

LookHere对斜率函数的选择具有鲁棒性。作者将默认的设置为随着深度的增加从1.5线性减少到0.5（受深度注意力距离发现的启发）。这在初步实验中有所帮助，但在消融中收益消失。作者任意将默认的设置为，但对于四个不定向的头，距离惩罚可以完全移除。作者将；LookHere对全局斜率的选择也具有鲁棒性。作者认为精确调整斜率是不必要的，因为模型可以学习缩放注意力logit的幅度。
随着距离的平方或平方根增加惩罚会损害外推性能。
移除所有距离惩罚会损害外推性能。
作者的主要贡献——2D方向掩码——对于保持性能至关重要，但作者的方法对许多方向配置具有鲁棒性。

计算。是预先计算并固定的，从学习到的注意力矩阵中逐元素减去它只需要次浮点运算（FLOPs）每层。对于ViT-B/16模型，这些减法占总共FLOPs的0.016%。LookHere通过不将位置嵌入添加到patch嵌入中来减少FLOPs，但这一数量也是微不足道的。此外，LookHere矩阵提供了结构化稀疏性（对于45°FOV，最多可达7/8），可以加速注意力——尽管这需要自定义内核，作者将其留待未来工作。