Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)

无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)

作者头像
计算机视觉研究院
发布于 2023-10-23 08:21:37
发布于 2023-10-23 08:21:37
5640
举报

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

大数据预训练的驱动下,Segment Anything Model(SAM)已被证明是一个强大的可提示框架,彻底改变了分割领域。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制SAM的探索不足,例如,在大量图像中自动分割你的宠物狗。

01

前景概要

在今天分享中,我们为SAM介绍了一种无需训练的个性化方法,称为PerSAM。给定仅一个拍摄数据,即具有参考掩模的单个图像,我们首先在新图像中获得目标概念的正负位置。然后,在目标视觉语义的帮助下,我们提出两个技术:目标引导注意力和目标语义提示,为SAM提供个性化目标分割的能力。通过这种方式,我们可以有效地自定义通用SAM以供私人使用,而无需任何培训。为了进一步缓解分割尺度的模糊性,我们提出了一种有效的一次性微调变体PerSAM-F。冻结整个SAM,我们引入了一种尺度感知微调来聚合多尺度掩码,它只在10秒内调整2个参数,以提高性能。

为了证明我们的有效性,我们构建了一个新的数据集PerSeg,用于评估个性化目标分割,并在各种一次性图像和视频分割基准上测试了我们的方法。此外,我们利用PerSAM来改进DreamBooth的个性化文本到图像合成。通过减少训练集背景的干扰,我们的方法展示了更好的目标外观生成和对输入文本提示的更高保真度。

02

背景和动机

SAM固有地失去了分割特定视觉概念的能力。想象一下,打算把你可爱的宠物狗放在厚厚的相册里,或者从你卧室的照片中找到丢失的时钟。利用普通SAM将是高度劳动密集型和耗时的。对于每个图像,必须在复杂的上下文中精确地找到目标对象,然后通过适当的分割提示激活SAM。考虑到这一点,我们会问:我们能否个性化SAM,以简单高效的方式自动分割用户指定的视觉概念?

为此,我们 研究出了PerSAM,这是一种针对分割任意模型的无需训练的个性化方法。如上图所示,我们的方法只使用一次拍摄数据,即用户提供的参考图像和个人概念的粗略掩码,就可以有效地定制SAM。具体来说,我们首先通过特征相似性获得测试图像中目标对象的位置置信度图,该图考虑了每个前景像素的外观。根据置信度得分,选择两个点作为正负位置先验,最后将其编码为提示标记,并输入SAM的解码器进行分割。在解码器中,我们建议注入目标对象的视觉语义,用两种技术释放SAM的个性化分割能力:

  • 目标引导注意力。我们通过位置置信度图将每个标记引导到SAM解码器中的图像交叉关注层。这明确地迫使提示标记主要集中在用于密集特征聚合的前景目标区域。
  • 目标语义提示。为了明确地为SAM提供高级目标语义,我们将原始提示标记与目标对象的嵌入相融合,这为低级位置提示提供了用于个性化分割的额外视觉提示。

通过上述设计,再加上级联后细化,PerSAM在各种姿势或场景中对独特的主题表现出良好的个性化分割性能。值得注意的是,我们的方法可以很好地处理需要在多个相似目标中分割一个目标、同时分割同一图像中的几个相同对象或沿着视频跟踪不同对象的场景。然而,如下图所示,偶尔可能会出现故障情况,其中对象包括视觉上不同的子部分或要分割的层次结构,例如泰迪熊顶部的帽子或机器人玩具的头部。这种模糊性给PerSAM在确定作为输出的掩码的适当规模方面带来了挑战,因为SAM可以将局部部分和全局形状视为有效掩码。

03

新框架设计详解

此外,我们观察到,我们的方法还可以帮助DreamBooth更好地微调用于个性化文本到图像生成的扩散模型,如下图所示。

给定一些包含特定视觉概念的图像,例如你的宠物猫或背包,DreamBooth学会将这些图像转换为单词嵌入空间中的标识符[V],然而,它可以同时包括背景信息,例如楼梯或森林。这将覆盖新提示的背景,并干扰目标外观的生成。因此,我们利用PerSAM来分割训练图像中的目标对象,并且只通过前景区域来监督DreamBooth,从而实现更高质量的文本到图像合成。

Location Confidence Map

根据用户提供的图像IR和掩模MR,PerSAM首先获得置信度图,该置信度图指示目标对象在新测试图像I中的位置。如下图所示,我们应用图像编码器来提取IR和I的视觉特征。编码器可以是SAM的冻结骨干或其他预训练的视觉模型,为此,我们默认采用SAM的图像编码器EncI。

Target-guided Attention

尽管已经获得了正负点提示,但我们进一步提出了对SAM解码器中的交叉注意力操作的更明确的语义指导,该操作将特征聚合集中在前景目标区域内。如下图所示,总体置信度图S可以清楚地指示测试图像中目标视觉概念的粗略区域(颜色越热,分数越高)。基于这样的性质,我们利用S将每个令牌中的注意力映射引导到解码器的图像交叉注意力层。

Target-semantic Prompting.

普通SAM只接收具有低级位置信息的提示,例如点或框的坐标。为了给SAM的解码器提供更多的高级提示,我们利用目标概念的视觉特征作为额外的高级语义提示。我们首先通过不同局部特征之间的平均池化来获得参考图像中对象的全局嵌入TR:

然后,我们在将TR馈送到解码器块之前,将TR明智地添加到SAM预测的最终分割掩码中测试图像的所有输入tokens,如下图所示:

04

实验及可视化效果

在下表中,我们观察到微调后的PerSAM-F获得了最佳结果,它有效地将PerSAM总体mIoU和bIoU提高了+2.7%和+5.9%。我们在下图中展示了PerSAM-F改进的更多可视化效果。

测试结果充分说明了我们对时间视频数据和复杂场景的强大泛化能力,这些场景包含多个相似或遮挡的对象,如下图所示。

Visualization of PerSAM-guided DreamBooth

© THE END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一个独特的视觉提示。如下图所示,即使点击的是同一物体(图 (b)-(d)),微小位置变化都会导致分割结果的显著差异。这是因为视觉提示缺乏语义信息,即使提示在想要分割的目标物体上,仍然可能引发歧义。框提示和涂鸦提示(图 (e)(f))虽然提供了更具体的位置信息,但由于机器和人类对目标分割物的理解存在偏差,效果常常与期望有所出入。
机器之心
2024/01/11
6540
告别逐一标注,一个提示实现批量图片分割,高效又准确
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
论文地址:https://arxiv.org/pdf/2307.06949.pdf
计算机视觉研究院
2023/08/24
1820
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
Segment-Anything的一些相关论文总结
Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao
deephub
2023/08/30
5270
Segment-Anything的一些相关论文总结
每日学术速递5.8
作者:Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li
AiCharm
2023/05/16
3710
每日学术速递5.8
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
论文地址:https://arxiv.org/pdf/2306.14289.pdf
计算机视觉研究院
2023/08/23
8100
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。
OpenCV学堂
2023/12/11
8710
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
FS-MedSAM2 探索 SAM2 在少样本图像分割中的潜力,无需微调 !
段 anything 模型2(SAM2) [13] 在自然图像和视频中展示了令人印象深刻的零样本提示分割能力。使用一个简单的点或矩形作为提示,SAM2可以准确地分割图像中的前景目标,并在视频中跟踪目标。然而,与它的前驱者一样,SAM2在医学图像方面存在局限性,尤其是在计算机断层扫描(CT)和磁共振成像(MRI)扫描中。这一限制源于其训练数据中缺乏医学图像,导致模型无法精确界定医学图像中器官、肿瘤和其他结构的边界,通常导致过度分割。
未来先知
2024/10/14
9500
FS-MedSAM2 探索 SAM2 在少样本图像分割中的潜力,无需微调 !
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
想必大家之前都做过抠图或者图片任务提取等任务,这有点想目前我们手机当中可以直接点击图片,然后将其复制到其它地方,就会自动出现这个任务图像一样。这里我们可以直接登录这个网站去尝试一下这个图像分割的魅力Segment Anything | Meta AI
此星光明
2024/02/11
1.1K0
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
基础模型还是微调? 河流污染少镜头语义分割的评价
近年来,基础模型(FMs)已成为人工智能(AI)研究的热点领域。它们以能够轻易地泛化到新领域和任务的能力而著称,为研究和产业都带来了令人激动的机会。但是,从产业角度来看,FMs只有在它们在给定任务上超越专门为此任务训练的模型时才更有效。因为实际生活中的数据往往与用于研究的数据存在显著差异,因此在行业环境中预训练的数据集可能无法匹配当前的任务。因此,FMs或对现有模型进行微调是合理的选择,虽然在某些情况下选择并不明显。微调模型被认为需要大量的优质数据进行训练,而工业环境中获取这些数据并不容易。在这种情况下,FMs可能是解决方法。在本工作中,作者研究了一个人是否应该使用FMs而不是微调现有的模型。
未来先知
2024/10/29
1770
基础模型还是微调? 河流污染少镜头语义分割的评价
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
机器之心报道 机器之心编辑部 CV 领域已经卷到了一个新的高度。 本月初,Meta 发布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图像分割基础模型,它学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,包括在训练过程中没有遇到过的物体和图像类型。这种「零样本迁移」的能力令人惊叹,甚至有人称 CV 领域迎来了「GPT-3 时刻」。 最近,一篇「一次性分割一切」的新论文《Segment Everything Everywh
机器之心
2023/05/01
6700
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
本文作者均来自北京大学王选计算机研究所。主要作者包括:林志威,北京大学博士生;王勇涛,北京大学副研究员;汤帜,北京大学研究员。
计算机视觉研究院
2024/11/18
2470
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。
新智元
2024/01/17
2490
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
Meta发布分割大模型[Segment Anything]CV的GPT时刻来临?
如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。
AiCharm
2023/05/15
3110
Meta发布分割大模型[Segment Anything]CV的GPT时刻来临?
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并跟上内卷的步伐,并能做出属于自己的 SAM 模型,那么接下这篇 Transformer-Based 的 Segmentation Survey 是不容错过!近期,南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于 Transformer-Based 的 Segmentation 的综述,系统地回顾了近些年来基于 Transformer 的分割与检测模型,调研的最新模型截止至今年 6 月!同时,综述还包括了相关领域的最新论文以及大量的实验分析与对比,并披露了多个具有广阔前景的未来研究方向!
机器之心
2023/08/07
3620
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。
新智元
2023/08/07
5940
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
通用深度神经网络模型是推动人工智能(AI)在众多应用中广泛应用的关键。通用AI模型经过一次训练即可快速部署到各种不同的用例或目标中。开发和部署之间的不对称性极大地提高了数据使用效率,摊薄了模型训练的成本和能耗,从而鼓励对高质量特征学习过程的投资。基础模型是针对广泛和全面的数据显示的大型和深度生成神经网络模型。最近,已经为不同的数据领域(如视觉、语言和音频)开发了各种基础模型。基础模型作为可适应不同任务或数据领域的通用AI模型,展现出巨大的潜力。虽然这些模型通常针对几个特定目标进行训练,但它们在处理新颖任务方面也表现出色。例如,用于序列预测的大型语言模型(LLM)可以 Prompt 解决问答任务或语言翻译 Query ,而大型扩散模型可以生成以前从未见过的物体和姿态组合的图像。
未来先知
2024/12/19
4640
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
分割一切模型SAM首篇全面综述:28页、200+篇参考文献
机器之心报道 机器之心编辑部 作为首个全面介绍基于 SAM 基础模型进展的研究,本文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。 人工智能(AI)正在向 AGI 方向发展,这是指人工智能系统能够执行广泛的任务,并可以表现出类似于人类的智能水平,狭义上的 AI 就与之形成了对比,因为专业化的 AI 旨在高效执行特定任务。可见,设计通用的基础模型迫在眉睫。基础模型在广泛的数据上训练,因而能够适应各种下游任务。最近 Meta 提出的分割一切模型(Segm
机器之心
2023/05/22
6170
分割一切模型SAM首篇全面综述:28页、200+篇参考文献
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割。
CV君
2021/09/27
1.6K0
将Segment Anything扩展到医学图像领域
SAM 是一种在自然图像分割方面取得成功的模型,但在医学图像分割方面表现不佳。MedSAM 首次尝试将 SAM 的成功扩展到医学图像,并成为用于分割各种医学图像的通用工具。为了开发 MedSAM,首先需要一个大型医学图像数据集,其中包括来自 11 种不同模态的超过 20 万个 Mask。该数据集用于训练和微调 MedSAM 模型。最重要的是,提供了一种简单的微调方法,使 SAM 适应一般的医学图像分割。
BBuf
2023/08/25
9420
将Segment Anything扩展到医学图像领域
UP-DETR 无需人工标注,随机裁剪多个 Query Patch ,并预训练 Transformer 进行目标检测 !
DETR是一种最近的框架,它将目标检测视为一个通过 Transformer 编码器-解码器[2]直接预测集合的问题。在没有手动设计的样本选择[3]和非最大值抑制(NMS)的情况下,DETR甚至可以达到与Faster R-CNN[4]相竞争的性能。然而,DETR在训练和优化方面存在挑战,它需要大规模的训练数据集以及即使在COCO数据集[5]上也需要极长的训练时间表。此外,研究发现,在训练数据不足且实例数量少于COCO的PASCAL VOC数据集[6]上,DETR的表现不佳。图1展示了DETR和作者提出的无监督预训练DETR(UP-DETR)在PASCAL VOC上的学习曲线。与DETR相比,UP-DETR以更高的AP值更快地收敛。
未来先知
2024/08/08
3350
UP-DETR 无需人工标注,随机裁剪多个 Query Patch ,并预训练 Transformer 进行目标检测 !
推荐阅读
告别逐一标注,一个提示实现批量图片分割,高效又准确
6540
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
1820
Segment-Anything的一些相关论文总结
5270
每日学术速递5.8
3710
轻量级MobileSAM:比FastSAM快4倍,处理一张图像仅需10ms(附源代码)
8100
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
8710
FS-MedSAM2 探索 SAM2 在少样本图像分割中的潜力,无需微调 !
9500
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
1.1K0
基础模型还是微调? 河流污染少镜头语义分割的评价
1770
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
6700
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
2470
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
2490
Meta发布分割大模型[Segment Anything]CV的GPT时刻来临?
3110
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
3620
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
5940
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
4640
分割一切模型SAM首篇全面综述:28页、200+篇参考文献
6170
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
1.6K0
将Segment Anything扩展到医学图像领域
9420
UP-DETR 无需人工标注,随机裁剪多个 Query Patch ,并预训练 Transformer 进行目标检测 !
3350
相关推荐
告别逐一标注,一个提示实现批量图片分割,高效又准确
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档