Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NIPS 2024 | LookHere: 具有定向注意力的视觉Transformer实现泛化和外推

NIPS 2024 | LookHere: 具有定向注意力的视觉Transformer实现泛化和外推

作者头像
小白学视觉
发布于 2024-12-31 04:32:12
发布于 2024-12-31 04:32:12
1300
举报

论文信息

题目:LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate
LookHere: 具有定向注意力的视觉Transformer实现泛化和外推
作者:Anthony Fuller, Daniel G. Kyrollos, Yousef Yassin, James R. Green

论文创新点

  1. 定向注意力机制:作者提出了一种名为LookHere的新型位置编码方法,通过2D注意力掩码将注意力头限制在固定视野内,并指向不同方向。这种设计不仅提供了平移等变性,还确保了注意力头多样性,从而提高了模型的泛化能力和外推性能。
  2. 减少分布偏移:LookHere通过限制注意力头的视野和方向,有效减少了在外推过程中由于引入新的位置嵌入而产生的分布偏移
  3. 高分辨率测试集:作者引入了ImageNet-HR,这是第一个原生高分辨率的ImageNet测试集(1024²像素),旨在更好地评估高分辨率图像分类器的性能。
  4. 外推性能提升:通过实验,作者展示了LookHere在外推性能上的显著提升。特别是在从224²像素训练并在1024²像素测试时,LookHere的表现优于当前最先进的2D-RoPE方法,提升了**21.7%**。

摘要

高分辨率图像提供了更多关于场景的信息,可以提高模型准确性。然而,计算机视觉中占主导地位的模型架构——视觉Transformer(ViT),在未经微调的情况下无法有效利用更大的图像。ViT在测试时外推到更多patches的能力较差,尽管Transformer在序列长度上具有灵活性。作者认为这一缺陷源于当前的patch位置编码方法,这些方法在外推时会产生分布偏移。作者提出了一种用于普通ViT位置编码的即插即用替换方法,通过2D注意力掩码将注意力头限制在固定视野内,指向不同方向。作者的新方法称为LookHere,提供了平移等变性,确保注意力头多样性,并限制了注意力头在外推时面临的分布偏移。作者展示了LookHere在分类(平均提升1.6%)、对抗攻击(平均提升5.4%)和校准误差(平均降低1.5%)方面的改进——在ImageNet上无需外推。在外推情况下,LookHere在ImageNet上训练于224²像素并测试于1024²像素时,表现优于当前最先进的位置编码方法2D-RoPE,提升了21.7%。此外,作者发布了一个高分辨率测试集,以改进高分辨率图像分类器的评估,称为ImageNet-HR。

关键字

视觉Transformer,位置编码,外推,高分辨率图像,注意力机制

3. LookHere

设计动机。作者引入了2D注意力掩码,为每个注意力头分配一个方向和一个视野(FOV),防止注意力超出头的FOV。在头的FOV内,根据patches之间的相对距离偏置注意力分数。这一设计的三个想法激发了作者的灵感。

  1. 注意力头多样性:头经常学习冗余算法,可以通过修剪来减少准确性损失。从机制的角度来看,作者可以将注意力头视为一个子网络的集合,它们“完全并行操作,并将它们的输出添加回残差流”,残差流被映射到logits。多样性一直是集成模型的理想属性,通过将注意力头限制在不同方向上可以确保多样性。
  2. 注意力头一致性:头经常学习可解释的空间算法,例如“关注查询上方的区域”,这可以可靠地从查询上方的内部表示中检索信息;然而,作者认为这些类型的空间算法在引入新的或修改的位置嵌入以编码patch位置时可能会失败——例如,误导模型关于查询上方的信息。作者相信,通过硬编码方向和距离(通过注意力掩码和偏差),可以减少模型学习自己的空间算法的需要。
  3. 平移等变性一直是视觉模型的理想属性,有助于卷积网络的成功。ViT因其弱归纳偏差而受到批评,导致从头训练时的样本效率低下。作者相信,LookHere通过方向掩码和距离惩罚实现的更强归纳偏差可以提高ViT的样本效率。

设计消融。通过广泛的消融实验(附录A.6),作者得出了四个结论:

  1. LookHere对斜率函数的选择具有鲁棒性。作者将默认的设置为随着深度的增加从1.5线性减少到0.5(受深度注意力距离发现的启发)。这在初步实验中有所帮助,但在消融中收益消失。作者任意将默认的设置为,但对于四个不定向的头,距离惩罚可以完全移除。作者将;LookHere对全局斜率的选择也具有鲁棒性。作者认为精确调整斜率是不必要的,因为模型可以学习缩放注意力logit的幅度。
  2. 随着距离的平方或平方根增加惩罚会损害外推性能。
  3. 移除所有距离惩罚会损害外推性能。
  4. 作者的主要贡献——2D方向掩码——对于保持性能至关重要,但作者的方法对许多方向配置具有鲁棒性。

计算。是预先计算并固定的,从学习到的注意力矩阵中逐元素减去它只需要次浮点运算(FLOPs)每层。对于ViT-B/16模型,这些减法占总共FLOPs的0.016%。LookHere通过将位置嵌入添加到patch嵌入中来减少FLOPs,但这一数量也是微不足道的。此外,LookHere矩阵提供了结构化稀疏性(对于45°FOV,最多可达7/8),可以加速注意力——尽管这需要自定义内核,作者将其留待未来工作。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。
机器之心
2023/12/12
4440
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
McGill&微软将卷积操作加入到ViT中,捕获更详细的局部信息!准确率达87.7%!代码已开源!
在本文中,作者提出了一种新的结构,称为卷积视觉Transformer(CvT) ,它通过在ViT中引入卷积来提高视觉Transformer(ViT)的性能和效率。这是通过两个主要修改来实现的:包含卷积token嵌入的Transformer层次结构 ,以及利用卷积投影的卷积Transformer 。
CV君
2021/11/19
1.4K0
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
做目标检测就一定需要 FPN 吗?昨天,来自 Facebook AI Research 的 Yanghao Li、何恺明等研究者在 arXiv 上上传了一篇新论文,证明了将普通的、非分层的视觉 Transformer 作为主干网络进行目标检测的可行性。他们希望这项研究能够引起大家对普通主干检测器的关注。
Amusi
2022/04/18
1.1K0
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
Mobile-Former | MobileNet+Transformer轻量化模型(精度速度秒杀MobileNet)
最近,Vision Transformer(ViT)展示了全局处理的优势,与cnn相比实现了显著的性能提升。然而,当将计算预算限制在1G FLOPs内时,增益维特减少。如果进一步挑战计算成本,基于depthwise和pointwise卷积的MobileNet和它的扩展仍然占据着一席之地(例如,少于300M的FLOPs图像分类),这又自然而然地提出了一个问题:
集智书童公众号
2021/08/26
2.3K0
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
机器之心报道 编辑:杜伟、陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。 在不久之前公布的 ICCV 2021 论文奖项中,来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖(最佳论文)。这篇论文的作者主要包括中国科
机器之心
2023/03/29
9290
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
华中科技 & 地平线 提出 通用视觉 Backbone 网络 , FLOPs减少 5.2倍,速度提高4.8倍 !
视觉Transformer(ViT)[18]通过将自然语言处理(NLP)中的高级序列建模层Transformer [91]引入计算机视觉领域,从而实现了视觉表示学习的革命性变化。它在各种视觉任务中都取得了巨大成功,作为一个多功能的 Backbone 网络。
AIGC 先锋科技
2024/07/08
2530
华中科技 & 地平线 提出 通用视觉 Backbone 网络 , FLOPs减少 5.2倍,速度提高4.8倍 !
TNT|为充分利用局部与全局结构信息,华为诺亚提出全新Transformer:TNT
Transformer是一种自注意力机制神经网络,最早兴起于NLP领域。近来,纯transformer模型已被提出并用于CV的各个领域,比如用于low-level问题的IPT,detection的DETR,classification的ViT,segmentation的SETR等等。然而这些Visual Transformer通过将图像视作块序列而忽视了它们最本质的结构信息。
AIWalker
2021/03/04
7560
TNT|为充分利用局部与全局结构信息,华为诺亚提出全新Transformer:TNT
最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数
与自然语言处理类似,对预训练视觉主干的迁移提高了模型在各种视觉任务上的性能。更大的数据集、可扩展的架构和新的训练方法都推动了模型性能的提升。
计算机视觉
2023/02/24
2.7K0
最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
Visual Transformer(ViT)作为计算机视觉领域的新兴霸主,已经在各个研究任务中逐渐替换掉了卷积神经网络CNN。
新智元
2022/02/24
1K0
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
完美支持任意分辨率输入的Vision Transformer出现 | 4032×4032等超大分辨率性能完爆DeiT等模型
Transformer在自然语言处理(NLP)领域巨大的成功激发了计算机视觉(CV)社区内的相当大探索。特别是,视觉Transformer(ViTs)将图像分割为非重叠的块,将每个块投射成标记,然后应用多头自注意力(MHSA)来捕捉不同标记之间的依赖关系。得益于Transformer卓越的建模能力,ViTs在多样的视觉任务中取得了不错的结果,包括图像分类,目标检测,视觉-语言建模,甚至是视频识别。
集智书童公众号
2024/04/12
2.4K0
完美支持任意分辨率输入的Vision Transformer出现 | 4032×4032等超大分辨率性能完爆DeiT等模型
计算机视觉中的Transformer
将Transformer应用到CV任务中现在越来越多了,这里整理了一些相关的进展给大家。
小白学视觉
2021/01/20
1.3K0
全新ViT Backbone | PLG-ViT 同时具有并行局部和全局自注意力的轻量化视觉Transformer
视觉Transformer(ViT)作为卷积神经网络(CNNs)的一种可行替代方案的出现,源于多头自注意力机制的成功应用。与标准卷积相比,多头自注意力机制提供了全局感受野。
集智书童公众号
2023/09/04
1.3K0
全新ViT Backbone | PLG-ViT 同时具有并行局部和全局自注意力的轻量化视觉Transformer
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
deephub
2024/01/23
4.6K0
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?
相对位置编码(Relative position encoding, RPE)是Transformer获取输入Token序列顺序的重要方法。在自然语言处理中已证实了其有效性。
AIWalker
2021/08/25
1.7K0
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?
谁说Transformer把握不住多尺度?中科院等联手提出HRFormer,内存和参数降低40% | NeurIPS 2021
---- 新智元报道   来源:arXiv 编辑:LRS 【新智元导读】Transformer在CV领域大放异彩,如何与传统CNN结合、利用CNN的优势一直是研究人员思考的问题。最近中科院、北大、微软亚研、百度联手提出HRFormer模型,能够在多分辨率并行处理图像,新模型架构参数量降低40%,性能却更强! Vision Transformer(ViT)在ImageNet分类任务中表现出极其强大的性能。 在ViT的基础上,许多后续工作通过通过知识蒸馏(knowledge distillation)、采
新智元
2023/05/22
3820
谁说Transformer把握不住多尺度?中科院等联手提出HRFormer,内存和参数降低40% | NeurIPS 2021
Vision-RWKV:基于RWKV架构的高效可扩展视觉感知模型
Vision-RWKV 是从 RWKV 改进而来的视觉模型,可以处理稀疏输入并高效执行健壮的全局处理。它能够很好地扩展到大型参数和数据集,优于其降低了空间聚合复杂性使得在高分辨率图像处理时无需窗口操作。在图像分类方面,VRWKV 在性能上优于 ViT,表现出更快的速度和更低的内存使用量,尤其是对于高分辨率输入。在密集预测任务中,它超越了基于窗口的模型,同时保持可比较的速度,因此在视觉感知任务中是一种更高效的替代方案。
deephub
2024/04/15
1.4K0
Vision-RWKV:基于RWKV架构的高效可扩展视觉感知模型
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。
机器之心
2024/06/04
1850
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想
密集预测视觉任务,如语义分割、目标检测,是现代智能计算平台(如AR/VR设备)的关键技术。卷积神经网络的发展非常迅速,在密集预测任务方面有了显著的改进。除了传统的CNN外,近期的ViTs也已经吸引了研究者广泛的兴趣,并在视觉任务中显示出竞争性的性能。
集智书童公众号
2021/11/17
1.8K0
最新最全 | 视觉 Transformer 综述
快卷起来!还怕改进想不到idea吗?中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!
公众号机器学习与AI生成创作
2021/12/02
1.1K0
最新最全 | 视觉 Transformer 综述
OpenGVLab&港中文&复旦&南大&清华提出Vision-RWKV Backbone | 超快超强,很难不爱
在本节中,作者提出了Vision-RWKV(VRWKV),这是一种具有线性复杂度注意力机制的高效视觉编码器。作者的原则是保留原始RWKV架构的优点,仅进行必要的修改,使其能够灵活地应用于视觉任务中,支持稀疏输入,并在规模扩大后确保训练过程的稳定性。VRWKV概述展示在图2中。
集智书童公众号
2024/03/11
1.1K0
OpenGVLab&港中文&复旦&南大&清华提出Vision-RWKV Backbone | 超快超强,很难不爱
推荐阅读
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
4440
McGill&微软将卷积操作加入到ViT中,捕获更详细的局部信息!准确率达87.7%!代码已开源!
1.4K0
何恺明团队新作ViTDet:用于目标检测的视觉Transformer主干网络
1.1K0
Mobile-Former | MobileNet+Transformer轻量化模型(精度速度秒杀MobileNet)
2.3K0
Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
9290
华中科技 & 地平线 提出 通用视觉 Backbone 网络 , FLOPs减少 5.2倍,速度提高4.8倍 !
2530
TNT|为充分利用局部与全局结构信息,华为诺亚提出全新Transformer:TNT
7560
最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数
2.7K0
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
1K0
完美支持任意分辨率输入的Vision Transformer出现 | 4032×4032等超大分辨率性能完爆DeiT等模型
2.4K0
计算机视觉中的Transformer
1.3K0
全新ViT Backbone | PLG-ViT 同时具有并行局部和全局自注意力的轻量化视觉Transformer
1.3K0
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
4.6K0
实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?
1.7K0
谁说Transformer把握不住多尺度?中科院等联手提出HRFormer,内存和参数降低40% | NeurIPS 2021
3820
Vision-RWKV:基于RWKV架构的高效可扩展视觉感知模型
1.4K0
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
1850
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想
1.8K0
最新最全 | 视觉 Transformer 综述
1.1K0
OpenGVLab&港中文&复旦&南大&清华提出Vision-RWKV Backbone | 超快超强,很难不爱
1.1K0
相关推荐
​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档