Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法

自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法

作者头像
机器之心
发布于 2022-06-08 13:40:25
发布于 2022-06-08 13:40:25
4110
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

对于本文提出的全新自监督学习方法 Siamese Image Modeling 中,网络从同一图像的遮盖视图预测另一个增强视图的密集特征,使其兼顾 Instance Discrimination 方法的语义对齐能力和 Masked Image Modeling 方法的空间分辨能力。

论文链接:https://arxiv.org/abs/2206.01204

自监督学习长久以来都是视觉领域努力追求的目标,它能够帮助我们利用大量的无标注数据,并且推动了很多下游任务的进步。

为了有效地以自监督的方式训练网络,研究者们提出了各式各样的 “代理任务”(pretext task)来生成监督信号,其中最为典型的有两类框架:Instance Discrimination(ID)与 Masked Image Modeling(MIM)。

ID 方法希望拉近相同图像的不同增强视图,同时避免特征坍塌(包括 MoCo、BYOL、Barlow Twins 等方法)。这种方法学习到的特征往往具有很强的线性可分性,所以 ID 方法在线性分类任务上表现出色,但是近期的一些研究表明它在下游的检测任务上并不优于监督学习。另一方面,MIM 方法通过一张遮盖图像来重建原始图像(包括 BEiT、MAE 等方法),它通常在检测任务上表现优异,但是不能做好线性分类任务,而且在少样本场景下表现一般。

为了解决这些矛盾,来自清华和商汤的研究者们提出:这种差异是因为两种方法各自忽略了特征所需要的语义对齐和空间分辨能力。具体来说:

  • 语义对齐能力要求语义相似的图像能被映射到邻近的特征表示,这可以通过对比相同图像的不同增强视图来达到;
  • 空间分辨能力要求特征能够建模图像内部的空间结构,而通过遮盖图像去预测密集特征表示能够帮助达成这点,因为这种做法建模了图像内部的条件分布。

基于这些思考,研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。

为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。

通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。

方法

数据增强

数据增强策略对于特征的学习有着非常重要的作用:ID 方法已经揭示了更强的空间和颜色增强对于提升线性分类效果显著;MIM 方法则采用了遮挡增强来帮助模型学习图像的局部结构。因此,SIM 保留了 ID 方法中的强数据增强策略,同时对输入给 online 分支的视图采用遮挡增强策略。

预测目标

SIM 被设计成去预测相同图像的不同增强视图的密集特征,这里将介绍预测和目标分别是如何计算的。

Online 分支负责做出预测。它首先将第一张遮挡视图 x_a 映射成特征 y_a∈R^(N_v×D),之后利用解码器 g (⋅) 基于特征 y_a,掩码词符 m 和他们的位置编码来做出预测

其中,p_a 是第一张视图 x_a 的位置编码,p_b^((u,v) ) 对应第二张视图 x_b 在 (u,v) 处的图块的位置编码,它们会在下文介绍。

Target 分支负责给出目标。它的编码器是 Online 分支编码器的滑动平均,并且接收第二张视图的所有图块并编码为目标特征 z_b∈R^(N×D)。

最后介绍解码器所需的位置编码是如何计算的。所有的图块都是以第一张视图 x_a 的左上角作为原点来计算的。具体来说,假设两张视图在原图中的位置信息分别为 (i_1,j_1,h_1,w_1) 和 (i_2,j_2,h_2,w_2 )(分别代表左上角横纵坐标与高度宽度),第一张视图的相对位置为:

第二张视图的相对位置为:

对于第二张图,尺度变化也被进一步加入位置信息中:

最后,这些信息输入到 sincos 位置编码函数中得到如下位置编码:

损失函数

SIM 采用 UniGrad 作为损失函数:

UniGrad 被采用主要出于两个原因:(1)这种对比函数是 ID 方法的统一形式;(2)它对内存更加友好:注意到通常使用的 InfoNCE 损失函数需要 O (|N|) 的内存来计算相似度,这对于有大量负样本的密集层次损失函数是不现实的;而通过先计算负样本之间的相关矩阵,UniGrad 只需要 O (D^2) 的内存消耗。

SIM 尝试将 UniGrad 施加在全局层次和密集层次,全局损失函数用全局平均的特征作为整张图的特征:

而密集损失函数将每个图块作为单独的样本,并且为了减少与全局损失函数的冲突,每个图块的特征减去了全局平均特征:

最后的总体的损失函数为:

研究者发现在短轮数下,(α_1=1,α_2=4) 给出最好的性能取舍。有趣的是,当训练轮数足够长时,只使用密集损失函数 (α_1=0,α_2=1) 也能给出很好的线性分类性能。

实验

主要结果

研究者在多种评估指标下对比了 SIM 和其它方法的性能,包括线性分类、ImageNet 全数据微调、ImageNet 1% 数据微调、COCO 上的物体检测与实例分割。

线性分类方面,SIM 可以做到和 MoCo-v3 相当的水平,同时大幅超过 MAE(400ep 大约 11 个点,1600ep 大约 8 个点);同时,即便不使用全局损失函数,SIM 也能给出不错的线性分类结果;

检测与分割任务上,SIM 超过了 MoCo-v3 大约 2 个点,也能在使用更短轮数的条件下达到与 MAE 相当的水平(400ep v.s. 1600ep);

微调任务上,SIM 在全数据微调时可以达到和之前方法相当的水平,而当只有 1% 数据可用时,SIM 能够超过 MoCo-v3 2 个点,MAE 14 个点。

消融实验

预测像素还是特征。表中(ab)和(de)说明,在使用相同视图作为输入和目标时,预测像素性能更好;而使用不同视图时,预测特征性能更好;

不同视图。表中(ae)和(cf)说明,使用不同视图能够提升线性分类大概 7-13 个点;

颜色增强。表中(ac)和(ef)说明,对于不同视图,颜色增强可以提升线性分类 3.5 个点,不过对于相同视图则没有这种提升效果。研究者猜测相同视图会将预测目标所采用的颜色增强泄露给模型,从而破坏了对颜色不变性的建模;

对 projector 与 decoder 使用 BN 还是 LN。研究者尝试将 projector 和 decoder 中的归一化层从 LN 换成 BN,表中(fg)说明这种替换对线性分类与检测任务都有一些提升;

全局损失函数。表中(gh)说明,全局损失函数有利于线性分类性能的提升,但是并不是必要的;

密集损失函数。表中(hi)说明密集损失函数能够在物体检测任务上提升 2.3 个点,在实例分割任务上提升 1.6 个点,这说明密集损失函数对下游密集预测任务是有帮助的。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
机器之心专栏作者:陈小康 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。 掩码建模方法,在 NLP 领域 (例如 BERT) 得到了广泛的应用。随着 ViT 的提出和发展,人们也尝试将掩码图像建模(MIM)应用到视觉领域并取得了一定进展。在此之前,视觉自监督算法主要沿着对比学习(contrastive learning)的思路去设计,而 MIM 无疑打开了新的大门。 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。该方法通过对 “表征学
机器之心
2022/03/04
1.2K0
更好的性能!新型自监督学习方法 CAE 了解一下
来自北京大学、香港大学和百度的研究者们近日提出了一种名为 CAE 的新型 MIM 方法。该方法通过对 “表征学习” 和 “解决前置任务(pretext task)” 这两个功能做完全分离,使得 encoder 学习到更好的表征,从而在下游任务上实现了更好的泛化性能。
OpenMMLab 官方账号
2022/05/25
1K0
更好的性能!新型自监督学习方法 CAE 了解一下
见微知著,掩码自监督学习让你一叶知秋
在前面的两篇文章中,我们介绍了基于各类代理任务 (Pretext Task) 和基于对比学习 (Contrastive Learning) 的自监督学习算法。
OpenMMLab 官方账号
2022/04/08
2.4K0
见微知著,掩码自监督学习让你一叶知秋
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
近两年来,计算机视觉领域经历了两次重大转变,第一次是由 MoCo(Momentum Contrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于 Transformer 的主干架构,近年来在自然语言处理中取得巨大成功的 Transformer 又在计算机视觉领域得到了探索,进而产生了从 CNN 到 Transformer 的建模转变。
深度学习技术前沿公众号博主
2021/07/14
6850
Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源
BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE
这个新方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。
机器之心
2021/11/18
5660
BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE
CVPR 2021 | 无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。
机器之心
2021/06/08
5380
对比自监督学习浪潮迅猛来袭,你准备好了吗?
近年来,自监督学习逐渐成为了备受人们关注的应对标注缺乏问题的热门解决方案,科研人员在基于对比学习的自监督方法方面进行了大量研究。本文是 PyTorch Lightning 创始人 William Falcon 的对比学习综述,对自监督学习、对比学习等基础概念进行了简要的回顾,介绍了 CPC、AMDIM、BYOL、SimCLR、Swav等最近较为著名的对比学习方法,并提出了一种名为 YADIM 的新型对比学习算法。
AI科技评论
2020/10/09
1.3K0
对比自监督学习浪潮迅猛来袭,你准备好了吗?
TPAMI 2024 | MVEB:使用多视图熵瓶颈的自监督学习
MVEB: Self-Supervised Learning With Multi-View Entropy Bottleneck
小白学视觉
2024/09/25
2180
TPAMI 2024 | MVEB:使用多视图熵瓶颈的自监督学习
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括奇虎360人工智能研究院和清华大学联合发布的大规模中文跨模态基准数据集 Zero,以及 Science 封面特刊的五篇 AI 帮助揭示核孔复合体结构的论文。 目录: AI-based structure prediction empowers integrative structural analysis of human nuclear pores Structure of cytoplasmic
机器之心
2022/06/13
4620
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
【论文解读】基于图的自监督学习联合嵌入预测架构
本文演示了一种学习高度语义的图像表示的方法,而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构(I-JEPA),这是一种用于从图像中进行自监督学习的非生成性方法。I-JEPA背后的idea很简单:从单个上下文块中,预测同一图像中不同目标块的表示。指导I-JEPA产生语义表示的核心设计选择是掩膜策略;具体来说,(a)预测图像中的几个目标块,(b)采样足够大规模的样本目标块(占图像的15%-20%),(c)使用足够丰富的(空间分布)上下文块,是至关重要的。根据经验,当与视觉transformer结合时,论文发现I-JEPA具有高度的可缩放性。例如,论文在ImageNet上使用32个A100 GPU在38小时内训练一个ViT-Huge/16,以在需要不同抽象级别的广泛任务中实现强大的下游性能,从线性分类到对象计数和深度预测。
合合技术团队
2023/08/25
3920
【论文解读】基于图的自监督学习联合嵌入预测架构
自监督学习之对比学习
自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。(也就是说自监督学习的监督信息不是人工标注的,而是算法在大规模无监督数据中自动构造监督信息,来进行监督学习或训练。因此,大多数时候,我们称之为无监督预训练方法或无监督学习方法,严格上讲,他应该叫自监督学习)。
全栈程序员站长
2022/10/05
1.1K0
自监督学习之对比学习
自监督:对比学习contrastive learning「建议收藏」
自监督方法将取代深度学习中占主导地位的直接监督范式的预言已经存在了相当一段时间。Alyosha Efros打了一个著名的赌,赌在2015年秋季之前,一种无监督的方法将会在检测Pascal VOC方面胜过有监督的R-CNN。但四年之后,他的预言现在已经实现了。目前,自监督方法(MoCo, He et al., 2019)在Pascal VOC上的检测性能已经超越了监督方法,并在许多其他任务上取得了良好的效果。
全栈程序员站长
2022/10/05
2K0
自监督:对比学习contrastive learning「建议收藏」
Hinton组力作:ImageNet无监督学习最佳性能一次提升7%,媲美监督学习
如今,在 ImageNet 上的图像识别准确率的性能提升每次通常只有零点几个百分点,而来自图灵奖获得者 Geoffrey Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标提升了 7-10%,甚至可以媲美有监督学习的效果。
机器之心
2020/02/24
7620
Hinton组力作:ImageNet无监督学习最佳性能一次提升7%,媲美监督学习
自监督学习 —— MoCo v2
file:///C:/Users/issuser/Downloads/202205291635050.pdf
为为为什么
2022/08/09
9770
自监督学习 —— MoCo v2
超越传统自监督学习,NeCo在语义分割任务中的性能提升 !
密集自我监督学习训练特征提取器,以在没有监督的情况下为图像中的每个像素或块产生表示。近年来,该领域取得了显著的进展,主要改善了无监督语义分割 ,以图像为中心的代表学习 ,以及其他密集的下游任务,如物体追踪和目标检测。
AIGC 先锋科技
2024/09/10
1780
超越传统自监督学习,NeCo在语义分割任务中的性能提升 !
自监督学习 —— MoCo v1
这里得到的I_pos的维度是**(N,1,1), N个数代表N**张图片的自己与自己的增强图的特征的匹配度。
为为为什么
2022/08/09
1.4K0
自监督学习 —— MoCo v1
从MoCo入门自监督学习与对比学习
最近有一些基于对比学习的无监督学习的工作取得了不错的效果,这类对比学习方法的本质上是构造一个动态的字典。我们先解释一下对比学习。
CristianoC
2022/11/18
1.4K0
从MoCo入门自监督学习与对比学习
何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督
论文链接:https://arxiv.org/pdf/1911.05722.pdf
机器之心
2019/11/15
7250
何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 上回说道,何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式—— 用掩蔽自编码器MAE,为视觉大模型开路。 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE。 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注。 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测。 预测的目标
量子位
2022/03/04
6340
Meta 自监督学习 I-JEPA 论文笔记
I-JEPA ( Image Joint Embedding Predictive Architecture ) 是一种自监督学习框架,结合了 联合嵌入架构 (Joint-Embedding Architecture) 和 生成架构 (Generative Architecture) 的特性提出。
为为为什么
2023/06/27
9420
Meta 自监督学习 I-JEPA 论文笔记
推荐阅读
相关推荐
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档