前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >论文推荐:使用带掩码的孪生网络进行自监督学习

论文推荐:使用带掩码的孪生网络进行自监督学习

作者头像
deephub
发布于 2022-11-11 09:15:48
发布于 2022-11-11 09:15:48
5410
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

点击上方“Deephub Imba”,关注公众号,好文章不错过 !

最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。

考虑一个大的未标记图像集D = (x_i)和一个小的带注释图像集S = (x_si, y_i),其中len(D) >> len(S)。这里,S中的图像可能与数据集D中的图像重叠。我们的训练目标是通过对D进行预训练来学习视觉表示,然后使用S将表示转移/微调到监督任务中。

Masked Siamese Networks

如果你对 ViT比较熟悉,下面要讨论的内容应该很熟悉。我们通过将每个视图转换为一系列不重叠的 NxN 块“Patchs”。然后论文作者介绍了通过一些随机的掩码来遮蔽图像并获得一个该图像的增强。在上图中可以看到两种策略,无论使用那种策略我们得到了分块(Patch)后的目标序列 x{+}_i 及其对应的掩码序列 x_i,m,其中后者会明显短于目标。

编码器 ViT 的目标是学习掩码的表示。 最后通过[CLS] token 得到一个序列的表示。

作者引入了一个矩阵q,它由K (K>1)个可学习原型(prototypes)组成,每个原型的维数为d。首先,我们分别得到掩码序列(patchfied & mask)和目标序列(patchfied only)的表示,z_i,m和z_i。然后使用L2归一化该表示,相应的预测(p)通过测量原型矩阵q的余弦相似度来计算。Tau表示一个温度参数,在(0,1)之间。注意,作者在计算目标预测时使用了一个更大的温度值,这隐式地引导网络产生自信的低熵锚预测。

最后,目标函数为

其中第一项表示标准交叉熵损失(H),第二项是MIN-MAX正则化器,它寻求最大化所有掩码序列(p_i,m), p_hat的平均预测的熵。

这里需要注意的有3点问题:

1、仅针对锚预测 p_i,m 计算梯度。2、在标准对比学习中,明确鼓励两个视图接近的表示。MSN 通过鼓励 2 个视图与可学习原型的距离来做到这一点,这可以被视为某种集群质心。两个视图的表示应该落入嵌入空间中的同一点。此外超参数中可学习原型的数量,作者使用了 1024 (与批大小匹配),维度 d 设置为 256。3、MAE 也提出了掩蔽图像。然而,MAE 尝试从其蒙面视图重建图像,而 MSN 直接尝试最大化两个视图表示的相似性。

结果

MSN 在 ImageNet-1K 上的线性评估方面优于 MAE 和其他模型。并且比较 MSN 和 MAE 很有趣,因为它们都引入了掩码。这可能是该领域未来工作的一个有见地的发现。作者还发现 Focal Mask 策略会降低性能,而 Random Mask 通常会提高性能。但是同时应用这两者会有显着的改进。还记得吗,MAE 仅使用随机掩蔽。

最后,当增加模型大小时,作者发现增加掩蔽率(丢弃更多块)有助于提高少样本性能。

我希望你觉得这篇文章对你的学习有帮助和/或有趣。论文地址在这里:

Masked Siamese Networks for Label-Efficient Learning

https://arxiv.org/abs/2204.07141

作者:ching


MORE

kaggle比赛交流和组队

加我的微信,邀你进群

喜欢就关注一下吧:

点个 在看 你最好看!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
带掩码的自编码器(MAE)最新的相关论文推荐
Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla
deephub
2022/11/11
7330
带掩码的自编码器(MAE)最新的相关论文推荐
自监督学习系列(四):基于蒸馏的图片掩码学习
好久不见!自监督学习系列文章继续更新啦!在前几期的文章中,我们介绍了基于辅助任务、对比学习以及图片掩码学习的自监督学习范式 。快来复习一下!
OpenMMLab 官方账号
2022/12/30
9630
自监督学习系列(四):基于蒸馏的图片掩码学习
GraphMAE:将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习
前几天的文章中我们提到MAE在时间序列的应用,本篇文章介绍的论文已经将MAE的方法应用到图中,这是来自[KDD2022]的论文GraphMAE: Self-supervised Masked Graph Autoencoders
deephub
2022/11/11
8020
GraphMAE:将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习
见微知著,掩码自监督学习让你一叶知秋
在前面的两篇文章中,我们介绍了基于各类代理任务 (Pretext Task) 和基于对比学习 (Contrastive Learning) 的自监督学习算法。
OpenMMLab 官方账号
2022/04/08
2.4K0
见微知著,掩码自监督学习让你一叶知秋
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
来源:Paper Weekly本文约3000字,建议阅读5分钟本文介绍了一篇在自监督掩码学习(Masked Image Modeling)领域的原创工作 HPM (Hard Patches Mining for Masked Image Modeling)。  各种自监督掩码学习方法的性能强烈依赖于人工定义的掩码策略,而我们提出一种新的困难样本挖掘策略,让模型自主地掩码困难样本,提升代理任务的难度,从而获得强大的表征提取能力。目前 HPM 已被 CVPR 2023 接收,相关代码已开源,有任何问题欢迎在 G
数据派THU
2023/05/11
2810
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
​HOG特征也可以作为图像重建的目标!FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat!
在本文中,作者提出了用于视频模型自监督预训练的掩蔽特征预测(Masked Feature Prediction,MaskFeat)。本文的方法首先随机掩蔽输入序列的一部分,然后预测掩蔽区域的特征。
CV君
2022/01/20
5020
​HOG特征也可以作为图像重建的目标!FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat!
带掩码的自编码器MAE在各领域中的应用总结
机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的,并且一般情况下都很难进行。
deephub
2022/11/11
8030
带掩码的自编码器MAE在各领域中的应用总结
带掩码的自编码器MAE详解和Pytorch代码实现
监督学习是训练机器学习模型的传统方法,它在训练时每一个观察到的数据都需要有标注好的标签。如果我们有一种训练机器学习模型的方法不需要收集标签,会怎么样?如果我们从收集的相同数据中提取标签呢?这种类型的学
deephub
2021/12/15
3.7K0
带掩码的自编码器MAE详解和Pytorch代码实现
何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”
甚至在业内纷纷追求“大力出奇迹”、“暴力美学”的当下,何恺明还带着一种坚持独立思考的反共识气概。
量子位
2021/11/16
7360
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力:
Amusi
2021/12/01
1K0
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
Meta 自监督学习 I-JEPA 论文笔记
I-JEPA ( Image Joint Embedding Predictive Architecture ) 是一种自监督学习框架,结合了 联合嵌入架构 (Joint-Embedding Architecture) 和 生成架构 (Generative Architecture) 的特性提出。
为为为什么
2023/06/27
8900
Meta 自监督学习 I-JEPA 论文笔记
ConvNeXt V2:适应自监督学习,让 CNN “再一次强大”?
嗨!今天给大家分享一篇比较新的计算机视觉论文,题目是“ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders”。这篇论文由韩国科学技术院(KAIST)、Meta AI 和纽约大学的研究者合作发表,论文和代码的链接放在下方。
OpenMMLab 官方账号
2023/08/23
3.7K0
ConvNeXt V2:适应自监督学习,让 CNN  “再一次强大”?
Multi-modal Multi-task Masked Autoencoder:一种简单、灵活且有效的 ViT 预训练策略
MAE是一种使用自监督预训练策略的ViT,通过遮蔽输入图像中的补丁,然后预测缺失区域进行子监督的与训练。尽管该方法既简单又有效,但 MAE 预训练目标目前仅限于单一模态——RGB 图像——限制了在通常呈现多模态信息的实际场景中的应用和性能。
deephub
2022/04/14
3220
Multi-modal Multi-task Masked Autoencoder:一种简单、灵活且有效的 ViT 预训练策略
CVPR 2023 | 美团技术团队精选论文解读
本文精选了美团技术团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、领域自适应、联邦学习等通用学习范式方面的技术迭代,也涉及目标检测、跟踪、分割、Low-level Vision等典型视觉任务的性能,体现了美团在基础通用技术和垂直领域技术上的全方位创新。这些论文也是美团技术团队与国内多所高校、科研机构合作的成果。希望给从事相关研究工作的同学带来一些启发或者帮助。
美团技术团队
2023/09/05
8920
CVPR 2023 | 美团技术团队精选论文解读
5个时间序列预测的深度学习模型对比总结:从模拟统计模型到可以预训练的无监督模型(附代码)
来源:DeepHub IMBA本文约6700字,建议阅读12分钟本文讨论了5种专门研究时间序列预测的深度学习体系结构。 时间序列预测在最近两年内发生了巨大的变化,尤其是在kaiming的MAE出现以后,现在时间序列的模型也可以用类似MAE的方法进行无监督的预训练。 Makridakis M-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供
数据派THU
2022/08/29
1.2K0
5个时间序列预测的深度学习模型对比总结:从模拟统计模型到可以预训练的无监督模型(附代码)
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
机器之心专栏 机器之心编辑部 对于本文提出的全新自监督学习方法 Siamese Image Modeling 中,网络从同一图像的遮盖视图预测另一个增强视图的密集特征,使其兼顾 Instance Discrimination 方法的语义对齐能力和 Masked Image Modeling 方法的空间分辨能力。 论文链接:https://arxiv.org/abs/2206.01204 自监督学习长久以来都是视觉领域努力追求的目标,它能够帮助我们利用大量的无标注数据,并且推动了很多下游任务的进步。 为了有
机器之心
2022/06/08
4030
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
【论文复现】掩码自回归编码器
掩码自动编码器MAE是一种可扩展的计算机视觉自监督学习器。MAE的基本思路是:屏蔽输入图像的随机补丁,并重建丢失的像素,它基于两个核心设计。
Eternity._
2024/12/24
1360
【论文复现】掩码自回归编码器
业界干货 | 图解自监督学习,从入门到专家必读的九篇论文
如果人工智能比作一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
对白
2022/04/01
7410
业界干货 | 图解自监督学习,从入门到专家必读的九篇论文
CVPR 2023: Stare at What You See讲解
标题:Stare at What You See: Masked Image Modeling without Reconstruction
BBuf
2023/08/25
3700
CVPR 2023: Stare at What You See讲解
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集,预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer,它们通常基于图像任务中的Transformer,并且在很大程度上依赖于来自大规模图像数据的预训练模型(例如在ImageNet上进行预训练)。
用户1324186
2024/05/31
2930
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
推荐阅读
带掩码的自编码器(MAE)最新的相关论文推荐
7330
自监督学习系列(四):基于蒸馏的图片掩码学习
9630
GraphMAE:将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习
8020
见微知著,掩码自监督学习让你一叶知秋
2.4K0
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
2810
​HOG特征也可以作为图像重建的目标!FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat!
5020
带掩码的自编码器MAE在各领域中的应用总结
8030
带掩码的自编码器MAE详解和Pytorch代码实现
3.7K0
何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”
7360
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
1K0
Meta 自监督学习 I-JEPA 论文笔记
8900
ConvNeXt V2:适应自监督学习,让 CNN “再一次强大”?
3.7K0
Multi-modal Multi-task Masked Autoencoder:一种简单、灵活且有效的 ViT 预训练策略
3220
CVPR 2023 | 美团技术团队精选论文解读
8920
5个时间序列预测的深度学习模型对比总结:从模拟统计模型到可以预训练的无监督模型(附代码)
1.2K0
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
4030
【论文复现】掩码自回归编码器
1360
业界干货 | 图解自监督学习,从入门到专家必读的九篇论文
7410
CVPR 2023: Stare at What You See讲解
3700
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
2930
相关推荐
带掩码的自编码器(MAE)最新的相关论文推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档