Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >结合人类视觉注意力进行图像分类

结合人类视觉注意力进行图像分类

作者头像
计算机视觉研究院
发布于 2018-04-17 06:46:41
发布于 2018-04-17 06:46:41
2.6K0
举报

注:昨天推送发现内容有一个严重错误,所以临时删除了文章的链接,希望关注的您能够谅解,我们也是希望推送最完整最准确的内容,谢谢您的支持与关注,谢谢!

好久没有和大家见面了,也没有动手写过一些东西,还写错了一些东西,感觉对不住大家的关注和支持。最近,抽空看了一篇不错的Paper,我想和大家分享一下。

现在应该有很多都在做目标检测和分类的吧,今天就来讲讲图像分来的一些创新技术,主要是通过2017年的一篇Paper来给大家详细说明下,希望可以给在该领域准备做创新的朋友带来一点灵感,谢谢!

文章源自于——《Residual Attention Network for Image Classification

该文章主要就说明了两点:

  • 引入残差网络;
  • 引入注意力机制(Attention Mechanism);

最主要的是他可以实现端到端自适应的调整。

Residual Attention Network由多个注意模块(Attention Modules)组成,产生注意感知特征。这个想法特别好,实现了简单的人眼注意力的机制,根据人眼注意的一种方式来应用在图像分类,简单来说,就是应用了显著性的特征。个人认为显著性是一个特别好的研究方向,我也在这方面接触一段时间,觉得在这领域有很多待挖掘和创新,因为我们人类观察一些事物,都是从局部到全局,更是从显著性部分区域开始观察,所以利用Saliency去做一个预处理,是一个绝对不错的选择,有机会我下次写一份我做的一些成果,有兴趣的朋友更加可以联系我,一些讨论,也可以加入我们战队的微信群进行详细交流。扯远了,现在开始正式讲解。

该文章除了更多注意机制带来的的判别性特征表示以外,文章模型还具有以下吸引人的特性:

  • 随着不同类型的注意被广泛捕获,越来越多的关注模块会导致性能相对的提升;
  • 模型能够在一个先进的深度网络(ResNet)上进行端到端的训练。具体来说,网络的深度可以很容易地扩张到上百层。

简单的记忆力机制,展示了特征和注意力之间的相互作用

主要通过以下来实现以上的特性:

  • Stacked network structureResidual Attention Network是由堆叠多个注意模块来构建的。堆叠结构是mixed attention机制的基本应用。因此,不同类型的注意力能够在不同注意模块被捕获;
  • Attention Residual Learning:其实堆叠网络结构会直接影响性能。所以,文章提出用残差学习机制去进行学习百层的Residual Attention Network
  • Bottom-up top-down feedforward attention:自底向上的前馈结构在很多领域已经被人用过,如人体姿势估计,图像分割。文章利用这个结构作为Attention Modules的一部分,并在特征中添加了软约束权重。这结构可以模仿自底向上快速前馈的过程和自顶向下注意力的反馈,允许文章模型实现end-to-end的训练。

现在来详细了解下内部结构:

Residual Attention Network

Attention Module H的计算如下:

i表示所有空间位置的范围,c∈{1,2,...,C}表示通道的索引。

注意模块,attention mask 不仅可以作为在向前推理过程的特征选择器,而且还可以作为在BP过程的一个梯度更新滤波器。在soft mask的分支,对输入特征的mask的梯度为:

θ是mask branch的参数,Φ是trunk branch 的参数。

然而,这些方法在挑战性的数据集,如ImageNet有几个缺点。首先,图像杂波背景,复杂的场景,和大的外观变化,需要根据不同的类型选择关注模型。在这种情况下,不同的层需要由不同attention masks建模。使用一个单一的mask支流,会需要指数型数量的通道去捕捉不同元素的素有组合。其次,一个单模块只修改特征一次,如果对图像中的某些部分修改失败,下面的网络模块不会有第二次机会。

因此,本文为了缓解上述问题,每个主干分支都有学习自己的attention masks,如之前得图所示。

网络框架

Attention Residual Learning

文章修改了H的输出,如下形式:

这个学习方式不同于残差学习,在ResNet中:

其中F(x)近似残差函数。而本文中,F(x)包含了由深度网络生成的特征。关键在于mask branches M(x)。

Soft Mask Branch

文章采用了不同尺度的去捕获信息。

mask branch和trunk branch感受野的比较

Spatial Attention and Channel Attention

在文章中,mask branch根据trunk branch特征自适应改变来提供attention,然而,通过改变归一化步骤,在soft mask输出之前的激活函数,约束attention仍可以添加到mask branch。

文章通过三种激活函数表示相对应的mixed attention、channel attention和spatial attention。Mixed attention f1对于每个channel和spatial没有额外的限制去使用简单的Sigmoid;Channel attention f2对每一个spatial position在所有channels中使用L2范数,为了去除spatial information;Spatial attention f3在每个channel的特征图执行归一化,然后Signoid去得到相对应spatial information的soft mask。

从实验科研看出,不同激活函数的作用。在CIFAR-10的测试误差,用的是Attention-56网络。

网络的详细信息。

实验

最后来贴一下实验结果和分析。这个是在CIAFR-10的分类误差。

每个阶段的平均响应如下图所示:

文章还做了噪声影响的实验,证明文章的网络对Noisy Label鲁棒的。其中,confusion matrix Q为:

在CIFAR-10的实验结果。

与先进网络的比较

居然文章一直在讲图像分类,实验肯定是要在大数据集做分类实验的,如下就是在ImageNet中的实验误差:

总结一下:

网络的第一个好处在于不同注意模块捕获不同类型的注意导向特征学习。文章还通过激活函数的形式实验也验证了这一点:自由的形式mixed attention会比constrained (including single) attention有更好的性能。第二个好处是将自上而下的注意机制编码为每个注意模块的自底而上的前馈卷积结构。因此,基本注意力模块可以结合起来形成更大的网络结构。此外,residual attention学习允许训练非常深的Residual Attention Network。

小小展望一下下:

在未来,将利用Residual Attention Network不同的用途,如检测和分割,去为了更好的探索具体任务的mixed attention机制。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
计算机视觉中的注意力机制(Visual Attention)
本文将会介绍计算机视觉中的注意力(visual attention)机制,本文为了扩大受众群体以及增加文章的可读性,采用递进式的写作方式。第1部分的全部以及第2部分的大部分是没有专业障碍的,后续的部分是为了更深入地了解计算机视觉中的注意力机制。
AI算法与图像处理
2019/09/11
4.1K0
计算机视觉技术self-attention最新进展
Attention注意力,起源于Human visual system(HVS),个人定义的话,应该类似于 外界给一个刺激Stimuli,然后HVS会第一时间产生对应的saliency map,注意力对应的应该就是这个显著性区域。
SIGAI学习与实践平台
2018/09/12
5.3K0
计算机视觉技术self-attention最新进展
深度残差收缩网络(四)注意力机制下的阈值设置
对于基于深度学习的分类算法,其关键不仅在于提取与标签相关的目标信息,剔除无关的信息也是非常重要的,所以要在深度神经网络中引入软阈值化。阈值的自动设置,是深度残差收缩网络的核心贡献。需要注意的是,软阈值化中的阈值,需要满足一定的条件。这篇文章中的阈值设置,事实上,是在注意力机制下进行的。下面分别介绍阈值需要满足的条件、注意力机制以及具体的阈值设置方法。
用户6831054
2019/12/21
6720
深度残差收缩网络(四)注意力机制下的阈值设置
NLP界最强特征提取器--Transformer
前面介绍NLP领域词向量技术的时候提到了目前最炙手可热的语言模型BERT,而BERT之所以能取得这样的瞩目成就,离不开其采用的超强特征提取器Transformer。
流川枫
2020/04/24
5.2K0
YOLOv12优化:遥感去雾 | 新颖的双注意力块(DAB)
💡💡💡 本文目的:通过利用一个新颖的双注意力块实现了更好的去雾性能,同时大幅降低了模型复杂度。这个双注意力块串联了两个模块:通道-空间注意力和并行注意力。我们提出了一种新的并行注意力架构,通过并行连接三种不同的注意力机制(全局通道注意力、局部通道注意力和空间注意力),实现了更好的去雾效果。
AI小怪兽
2025/04/03
4440
CVPR2020 | SEAM:弱监督语义分割的自监督等变注意力机制
论文地址:https://arxiv.org/pdf/2004.04581.pdf
AI算法修炼营
2020/05/09
2.8K0
CVPR2020 | SEAM:弱监督语义分割的自监督等变注意力机制
思维的碰撞:小波变换偶遇深度学习
现有的基于深度学习的图像超分往往采用更深、更宽的架构提升重建图像质量,这就导致了更大的计算量、更慢的推理速度。尽管也有研究员设计轻量型网络用语图像超分,但往往造成性能损失。
AIWalker
2021/04/29
1.7K0
思维的碰撞:小波变换偶遇深度学习
【笔记】一些Attention 方面的网络
视觉注意力的成功主要归功于这样的合理假设:人类视觉并不是一次性处理整个图像,相反,人们只关注整个视觉空间的某些选择性部分,这视需要而定Control of goal-directed and stimulus-driven attention in the brain (https://www.nature.com/articles/nrn755)
公众号机器学习与AI生成创作
2020/04/28
1.6K0
涨点神器!南航提出AFF:注意力特征融合,即插即用!可用于分类、检测和分割等
https://openaccess.thecvf.com/content/WACV2021/html/Dai_Attentional_Feature_Fusion_WACV_2021_paper.html
Amusi
2021/11/02
10K0
ReViT来袭 | 基于全新残差注意力机制改进ViT架构,增强视觉特征的多样性以及模型的鲁棒性
如今,自动视觉识别系统作为强大的辅助工具,在广泛的视觉相关应用中越来越受欢迎,例如目标检测和跟踪,图像分析和分类,场景分割和理解。这些系统的发展旨在模仿人类大脑将低级视觉特征(例如边缘、颜色或形状)与语义级信息完美相关联的能力,以完成感知识别和识别任务。
集智书童公众号
2024/03/01
1.1K0
ReViT来袭 | 基于全新残差注意力机制改进ViT架构,增强视觉特征的多样性以及模型的鲁棒性
真香!Vision Transformer 快速实现 Mnist 识别
引言:基于深度学习的方法在计算机视觉领域中最典型的应用就是卷积神经网络CNN。CNN中的数据表示方式是分层的,高层特征表示依赖于底层特征,由浅入深抽象地提取高级特征。CNN的核心是卷积核,具有平移不变性和局部敏感性等特点,可以捕捉局部的空间信息。
AI科技大本营
2022/04/05
1.6K0
真香!Vision Transformer 快速实现 Mnist 识别
【论文解读】基于关系感知的全局注意力
标题:《Relation-Aware Global Attention for Person Re-identification》
黄博的机器学习圈子
2021/02/08
1.6K0
无处不在的残差网络
CW,广东深圳人,毕业于中山大学(SYSU)数据科学与计算机学院,毕业后就业于腾讯计算机系统有限公司技术工程与事业群(TEG)从事Devops工作,期间在AI LAB实习过,实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。
深蓝学院
2020/12/04
1.2K0
基于选择性 Transformer 的高光谱图像分类 !
随着超光谱成像技术的不断进步,超光谱图像(HSIs)现在提供了越来越丰富的空间-光谱信息,使得地球观测变得精确。利用其独特的光谱特性,HSIs能够执行各种任务,包括分类,目标检测,变化检测,以及图像质量增强。值得注意的是,HSI分类已成为遥感领域的一个基本任务,因为它在诸如灾害监测[14],精准农业[15],以及城市规划[16]等领域有广泛的应用。HSI分类的主要目标是将特定的类标签分配给HSI中的每个像素。
未来先知
2024/11/04
4590
基于选择性 Transformer 的高光谱图像分类 !
注意力机制BAM和CBAM详细解析(附代码)
人看东西时不可能把注意力放在所有的图像上,会把焦点目光聚集在图像的重要物体上。因此,作者提出了BAM注意力机制,仿照人的眼睛聚焦在图像几个重要的点上。
墨明棋妙27
2022/09/23
4.5K0
Deep Reading | 从0到1再读注意力机制,此文必收藏!
【AI科技大本营导语】注意力机制(Attention)已经成为深度学习必学内容之一,无论是计算机视觉还是自然语言处理都可以看到各种各样注意力机制的方法。之前我们曾在一篇干货文章《关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了》中,从实例到原理帮助大家参透注意力机制的工作原理。今天,我们将再度为大家梳理全部理论要点,是大家学习的必备资料之一,并为后续掌握最新流行的注意力机制保驾护航。
AI科技大本营
2019/03/19
1.4K0
Deep Reading | 从0到1再读注意力机制,此文必收藏!
前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场
前几天,谷歌提出的 MLP-Mixer 引爆 CV 圈,无需卷积、注意力机制,仅需 MLP 即可实现与 CNN、ViT 相媲美的性能。
机器之心
2021/06/08
9240
注意力机制+软阈值化=深度残差收缩网络
深度残差网络ResNet获得了2016年IEEE Conference on Computer Vision and Pattern Recognition的最佳论文奖,目前在谷歌学术的引用量已经突破了4万次。
用户7096272
2020/03/18
8090
注意力机制+软阈值化=深度残差收缩网络
【CV中的Attention机制】基础篇-视觉注意力机制和SENet
注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。注意力机制本质上与人类对外界事物的观察机制相似。通常来说,人们在观察外界事物的时候,首先会比较关注比较倾向于观察事物某些重要的局部信息,然后再把不同区域的信息组合起来,从而形成一个对被观察事物的整体印象。
深度学习技术前沿公众号博主
2020/05/25
9.3K0
【CV中的Attention机制】基础篇-视觉注意力机制和SENet
一文读懂计算机视觉中的注意力机制原理及其模型发展
所谓Attention机制,便是聚焦于局部信息的机制,比如图像中的某一个图像区域。随着任务的变化,注意力区域往往会发生变化。
AI科技大本营
2019/08/06
2.8K0
推荐阅读
相关推荐
计算机视觉中的注意力机制(Visual Attention)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档