Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

作者头像
OpenCV学堂
发布于 2023-12-11 10:27:49
发布于 2023-12-11 10:27:49
9860
举报

对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。

Meta四月份发布的「分割一切模型(SAM)」效果,它能很好地自动分割图像中的所有内容

Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图像的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的,可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型,并在超出视觉之外的领域也能产生应用价值。

尽管有上述优点,但由于 SAM 中的 ViT-H 图像编码器有 632M 个参数(基于提示的解码器只需要 387M 个参数),因此实际使用 SAM 执行任何分割任务的计算和内存成本都很高,这对实时应用来说具有挑战性。后续,研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

在最近的一项研究中,Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。

  • 论文链接:https://arxiv.org/pdf/2312.00863.pdf
  • 论文主页:https://yformer.github.io/efficient-sam/

这一方法降低了 SAM 的复杂性,同时能够保持良好的性能。具体来说,SAMI 利用 SAM 编码器 ViT-H 生成特征嵌入,并用轻量级编码器训练掩码图像模型,从而从 SAM 的 ViT-H 而不是图像补丁重建特征,产生的通用 ViT 骨干可用于下游任务,如图像分类、物体检测和分割等。然后,研究者利用 SAM 解码器对预训练的轻量级编码器进行微调,以完成任何分割任务。

为了评估该方法,研究者采用了掩码图像预训练的迁移学习设置,即首先在图像分辨率为 224 × 224 的 ImageNet 上使用重构损失对模型进行预训练,然后使用监督数据在目标任务上对模型进行微调。

通过 SAMI 预训练,可以在 ImageNet-1K 上训练 ViT-Tiny/-Small/-Base 等模型,并提高泛化性能。对于 ViT-Small 模型,研究者在 ImageNet-1K 上进行 100 次微调后,其 Top-1 准确率达到 82.7%,优于其他最先进的图像预训练基线。

研究者在目标检测、实例分割和语义分割上对预训练模型进行了微调。在所有这些任务中,本文方法都取得了比其他预训练基线更好的结果,更重要的是在小模型上获得了显著收益。

论文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 参数减少了 20 倍,但运行时间快了 20 倍,只与原始 SAM 模型的差距在 2 个百分点以内,大大优于 MobileSAM/FastSAM。

在 demo 演示中,点击图片中的动物,EfficientSAM 就能快速将物体进行分割:

EfficientSAM 还能准确标定出图片中的人:

试玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含两个阶段:1)在 ImageNet 上对 SAMI 进行预训练(上);2)在 SA-1B 上微调 SAM(下)。

EfficientSAM 主要包含以下组件:

交叉注意力解码器:在 SAM 特征的监督下,本文观察到只有掩码 token 需要通过解码器重建,而编码器的输出可以在重建过程中充当锚点(anchors)。在交叉注意力解码器中,查询来自于掩码 token,键和值源自编码器的未掩码特征和掩码特征。本文将来自交叉注意力解码器掩码 token 的输出特征和来自编码器的未掩码 token 的输出特征进行合并,以进行 MAE 输出嵌入。然后,这些组合特征将被重新排序到最终 MAE 输出的输入图像 token 的原始位置。

线性投影头。研究者通过编码器和交叉注意力解码器获得的图像输出,接下来将这些特征输入到一个小型项目头(project head)中,以对齐 SAM 图像编码器中的特征。为简单起见,本文仅使用线性投影头来解决 SAM 图像编码器和 MAE 输出之间的特征维度不匹配问题。

重建损失。在每次训练迭代中,SAMI 包括来自 SAM 图像编码器的前向特征提取以及 MAE 的前向和反向传播过程。来自 SAM 图像编码器和 MAE 线性投影头的输出会进行比较,从而计算重建损失。

经过预训练,编码器可以对各种视觉任务的特征表示进行提取,而且解码器也会被废弃。特别是,为了构建用于分割任何任务的高效 SAM 模型,本文采用 SAMI 预训练的轻量级编码器(例如 ViT-Tiny 和 ViT-Small)作为 EfficientSAM 的图像编码器和 SAM 的默认掩码解码器,如图所示 2(底部)。本文在 SA-1B 数据集上对 EfficientSAM 模型进行微调,以实现分割任何任务。

实验

图像分类。为了评估本文方法在图像分类任务上的有效性,研究者将 SAMI 思想应用于 ViT 模型,并比较它们在 ImageNet-1K 上的性能。

如表 1 将 SAMI 与 MAE、iBOT、CAE 和 BEiT 等预训练方法以及 DeiT 和 SSTA 等蒸馏方法进行了比较。

SAMI-B 的 top1 准确率达到 84.8%,比预训练基线、MAE、DMAE、iBOT、CAE 和 BEiT 都高。与 DeiT 和 SSTA 等蒸馏方法相比,SAMI 也显示出较大的改进。对于 ViT-Tiny 和 ViT-Small 等轻量级模型,SAMI 结果与 DeiT、SSTA、DMAE 和 MAE 相比有显著的增益。

目标检测和实例分割。本文还将经过 SAMI 预训练的 ViT 主干扩展到下游目标检测和实例分割任务上,并将其与在 COCO 数据集上经过预训练的基线进行比较。如表 2 所示, SAMI 始终优于其他基线的性能。

这些实验结果表明,SAMI 在目标检测和实例分割任务中所提供的预训练检测器主干非常有效。

语义分割。本文进一步将预训练主干扩展到语义分割任务,以评估其有效性。结果如表 3 所示,使用 SAMI 预训练主干网的 Mask2former 在 ImageNet-1K 上比使用 MAE 预训练的主干网实现了更好的 mIoU。这些实验结果验证了本文提出的技术可以很好地泛化到各种下游任务。

表 4 将 EfficientSAMs 与 SAM、MobileSAM 和 SAM-MAE-Ti 进行比较。在 COCO 上,EfficientSAM-Ti 的性能优于 MobileSAM。EfficientSAM-Ti 具有 SAMI 预训练权重,也比 MAE 预训练权重表现更好。

此外, EfficientSAM-S 在 COCO box 仅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,参数减少了 20 倍。本文还发现,与 MobileSAM 和 SAM-MAE-Ti 相比,EfficientSAM 在多次点击(multiple click)方面也表现出了良好的性能。

表 5 展示了零样本实例分割的 AP、APS、APM 和 APL。研究者将 EfficientSAM 与 MobileSAM 和 FastSAM 进行了比较,可以看到,与 FastSAM 相比,EfficientSAM-S 在 COCO 上获得了超过 6.5 个 AP,在 LVIS 上获得了 7.8 个 AP。就 EffidientSAM-Ti 而言,仍然远远优于 FastSAM,在 COCO 上为 4.1 个 AP,在 LVIS 上为 5.3 个 AP,而 MobileSAM 在 COCO 上为 3.6 个 AP,在 LVIS 上为 5.5 个 AP。

而且,EfficientSAM 比 FastSAM 轻得多,efficientSAM-Ti 的参数为 9.8M,而 FastSAM 的参数为 68M。

图 3、4、5 提供了一些定性结果,以便读者对 EfficientSAMs 的实例分割能力有一个补充性了解。

更多研究细节,可参考原论文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
ChatGPT Zhang等人彻底改变了NLP领域,标志着生成人工智能(AIGC,又称人工智能生成内容)的突破。使这成为可能的是Brown等人、Radford等人的GPT系列模型,这些模型是Bommasani等人在网络规模的文本数据集上训练的基础模型。
集智书童公众号
2023/09/04
1.9K0
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!
本文介绍了一种名为EfficientSAM的模型,该模型通过利用遮罩图像预训练来提高图像分割的性能。作者使用了一个名为SAMI的方法,通过将SAM图像编码器的特征作为重建目标,从SAM图像编码器中重建特征,从而实现遮罩图像预训练。作者还使用SAMI预训练的轻量级图像编码器构建了EfficientSAM模型,并在SA-1B数据集上进行了验证。实验结果表明,EfficientSAM模型在图像分类、目标检测、实例分割和语义分割等任务中均取得了比其他预训练方法更好的性能。此外,作者还讨论了与遮罩图像预训练相关的方法和应用。
AIWalker
2023/12/06
8660
EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
论文地址:https://arxiv.org/pdf/2306.14289.pdf
计算机视觉研究院
2023/08/23
9650
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
NanoSAM:让您在Jetson Orin上享受实时分割的卓越体验
嘿,大家好!今天我们要谈论的是一项令人兴奋的技术——nanoSAM(Segment Anything Model),这是能在NVIDIA Jetson Orin平台上实时运行的炫酷模型哦!
GPUS Lady
2023/09/15
6960
NanoSAM:让您在Jetson Orin上享受实时分割的卓越体验
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
4K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。
AIWalker
2023/12/13
1K0
38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
大语言模型(LLMs)的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中,Segment Anything Model(SAM)是最先进的图像分割基础模型。
机器之心
2024/04/12
3310
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
机器之心专栏作者:陈小康 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。 掩码建模方法,在 NLP 领域 (例如 BERT) 得到了广泛的应用。随着 ViT 的提出和发展,人们也尝试将掩码图像建模(MIM)应用到视觉领域并取得了一定进展。在此之前,视觉自监督算法主要沿着对比学习(contrastive learning)的思路去设计,而 MIM 无疑打开了新的大门。 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。该方法通过对 “表征学
机器之心
2022/03/04
1.3K0
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
生成预训练Transformer(Generative Pre-trained Transformer,GPT)系列模型的成功表明,如果在大规模数据上进行训练,大型语言模型在零样本和非可视域中的少量快照任务上的性能与最新技术相当。
集智书童公众号
2023/09/04
1.1K0
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
大道至简,何恺明新论文火了:Masked Autoencoders让计算机视觉通向大模型
11 月 12 日,一篇由 Facebook AI 研究院完成、何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。
机器之心
2021/11/18
2.2K0
大道至简,何恺明新论文火了:Masked Autoencoders让计算机视觉通向大模型
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
医学影像诊断对评估疾病至关重要,医学影像分割,即从医学影像中提取特定结构(如肿瘤和器官)也一直受到广泛关注。深度学习方法在该领域取得了显著的进步,催生了大量针对特定场景的模型。然而,每个场景通常都需要训练一个专门的分割模型,这需要大量的工作。近年来,在自然语言处理(NLP)领域的巨模型(LLMs)迅速发展的启发下,研究行人开始探索将巨模型应用于计算机视觉。Segment Anything Model(SAM)就是其中之一,它通过与大量数据进行训练,试图将一般的图像分割任务统一。然而,尽管SAM在医疗影像分割任务上取得了高绩效,但其在大规模参数量和医疗图像的高空间分辨率下的计算和处理时间需求巨大。这使得SAM模型在实际部署中面临挑战,甚至对于没有GPU依赖的笔记本电脑或边缘设备上的非工业学术团体 Conducting research on them。因此,作为解决这一问题的SAM模型越来越受到关注。
未来先知
2024/09/24
5450
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
每日学术速递12.10
1.Object Recognition as Next Token Prediction
AiCharm
2023/12/13
2940
每日学术速递12.10
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
机器之心报道 机器之心编辑部 CV 研究者接下来的路要怎么走? 「这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。 如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。 Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「做一个统一某个(某些?全部?)任务的全能模型」的道路。 在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化
机器之心
2023/04/06
3880
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
想必大家之前都做过抠图或者图片任务提取等任务,这有点想目前我们手机当中可以直接点击图片,然后将其复制到其它地方,就会自动出现这个任务图像一样。这里我们可以直接登录这个网站去尝试一下这个图像分割的魅力Segment Anything | Meta AI
此星光明
2024/02/11
1.5K0
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 上回说道,何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式—— 用掩蔽自编码器MAE,为视觉大模型开路。 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE。 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注。 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测。 预测的目标
量子位
2022/03/04
6960
谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
在大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并为模型设计提供更快的研究周期。
机器之心
2023/10/24
7450
谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
Meta 自监督学习 I-JEPA 论文笔记
I-JEPA ( Image Joint Embedding Predictive Architecture ) 是一种自监督学习框架,结合了 联合嵌入架构 (Joint-Embedding Architecture) 和 生成架构 (Generative Architecture) 的特性提出。
为为为什么
2023/06/27
1.2K0
Meta 自监督学习 I-JEPA 论文笔记
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
作为在超过1100万张图像上预训练的大型视觉模型,Segment-Anything Model (SAM)[1]引起了研究行人的关注。然而,最近的研究表明,SAM在下游任务上表现不佳,包括伪装物检测[2,3]、阴影检测[3]和显著物检测[4]。
未来先知
2024/08/20
7900
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
通用深度神经网络模型是推动人工智能(AI)在众多应用中广泛应用的关键。通用AI模型经过一次训练即可快速部署到各种不同的用例或目标中。开发和部署之间的不对称性极大地提高了数据使用效率,摊薄了模型训练的成本和能耗,从而鼓励对高质量特征学习过程的投资。基础模型是针对广泛和全面的数据显示的大型和深度生成神经网络模型。最近,已经为不同的数据领域(如视觉、语言和音频)开发了各种基础模型。基础模型作为可适应不同任务或数据领域的通用AI模型,展现出巨大的潜力。虽然这些模型通常针对几个特定目标进行训练,但它们在处理新颖任务方面也表现出色。例如,用于序列预测的大型语言模型(LLM)可以 Prompt 解决问答任务或语言翻译 Query ,而大型扩散模型可以生成以前从未见过的物体和姿态组合的图像。
未来先知
2024/12/19
6540
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
MASA:匹配一切、分割一切、跟踪一切
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器,它可以与基础的分割或检测模型协同工作,并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中表现出强大的零次学习跟踪能力。在多个具有挑战性的MOT和MOTS基准测试上的广泛测试表明,所提出的方法仅使用未标记的静态图像,在零次学习关联中,其性能甚至超过了使用完全标注的域内视频序列训练的最新方法。我们的代码已公开在github.com/siyuanliii/masa。
AI浩
2024/10/22
3880
MASA:匹配一切、分割一切、跟踪一切
推荐阅读
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
1.9K0
EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!
8660
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
9650
NanoSAM:让您在Jetson Orin上享受实时分割的卓越体验
6960
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
4K0
38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!
1K0
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
3310
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
1.3K0
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
1.1K0
大道至简,何恺明新论文火了:Masked Autoencoders让计算机视觉通向大模型
2.2K0
Swin-LiteMedSAM:基于盒的轻量级片段任意模型,用于大规模医学图像数据集 !
5450
每日学术速递12.10
2940
CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻
3880
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
1.5K0
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
6960
谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
7450
Meta 自监督学习 I-JEPA 论文笔记
1.2K0
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
7900
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
6540
MASA:匹配一切、分割一切、跟踪一切
3880
相关推荐
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档