Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer

​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer

作者头像
Amusi
发布于 2022-11-30 07:05:22
发布于 2022-11-30 07:05:22
6970
举报
文章被收录于专栏:CVerCVer

本文简要介绍发表在NeurIPS 2022上关于小样本语义分割的论文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。该论文针对现有研究中忽视查询和支持图像之间因类内多样性而带来的类别信息的差距,而强行将支持图片的类别信息迁移到查询图片中带来的分割效率低下的问题,引入了一个中间原型,用于从支持中挖掘确定性类别信息和从查询中挖掘自适应类别知识,并因此设计了一个中间原型挖掘Transformer。文章在每一层中实现将支持和查询特征中的类型信息到中间原型的传播,然后利用该中间原型来激活查询特征图。借助Transformer迭代的特性,使得中间原型和查询特征都可以逐步改进。相关代码已开源在:

https://github.com/LIUYUANWEI98/IPMT

一、研究背景

目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据,然而收集这些数据是一项耗时耗力的工作。为了解决这个问题,通过小样本学习来学习一个模型,并将该模型可以推广到只有少数标注图像的新类别。这种设置也更接近人类的学习习惯,即可以从稀缺标注的示例中学习知识并快速识别新类别。

本文专注于小样本学习在语义分割上的应用,即小样本语义分割。该任务旨在用一些带标注的支持样本来分割查询图像中的目标物体。然而,目前的研究方法都严重依赖从支持集中提取的类别信息。尽管支持样本能提供确定性的类别信息指导,但大家都忽略了查询和支持样本之间可能存在固有的类内多样性。

在图1中,展示了一些支持样本原型和查询图像原型的分布。从图中可以观察到,对于与查询图像相似的支持图像(在右侧标记为“相似支持图像”),它们的原型在特征空间中与查询原型接近,在这种情况下匹配网络可以很好地工作。然而,对于与查询相比在姿势和外观上具有较大差异的支持图像(在左侧标记为“多样化支持图像”),支持和查询原型之间的距离会很远。在这种情况下,如果将支持原型中的类别信息强行迁移到查询中,则不可避免地会引入较大的类别信息偏差。

图1 支持样本原型与查询图像原型分布图

因此,本文在通过引入一个中间原型来缓解这个问题,该原型可以通过作者提出的中间原型挖掘Transformer弥补查询和支持图像之间的类别信息差距。每层Transformer由两个步骤组成,即中间原型挖掘和查询激活。在中间原型挖掘中,通过结合来自支持图像的确定性类别信息和来自查询图像的自适应类别知识来学习中间原型。然后,使用学习到的原型在查询特征激活模块中激活查询特征图。此外,中间原型挖掘Transformer以迭代方式使用,以逐步提高学习原型和激活查询功能的质量。

二、方法原理简述

图2 方法总框图

支持图像和查询图像输入到主干网络分别提取除支持特征和查询特征。查询特征在原型激活(PA)模块中经过简单的利用支持图像原型进行激活后,分割成一个初始预测掩码,并将该掩码和激活后的查询特征作为中间原型挖掘Transformer层的一个输入。同时,将支持特征、支持图片掩码和随机初始化的一个中间原型也做为第一层中间原型挖掘Transformer的输入。在中间原型挖掘Transformer层中,首先进行掩码注意力操作。具体来说,计算中间原型与查询或支持特征之间的相似度矩阵,并利用下式仅保留前景区域的特征相似度矩阵:

处理后的相似度矩阵作为权重,分别捕获查询或支持特征中的类别信息并形成新的原型。

查询特征新原型、支持特征新原型和原中间原型结合在一起形成新的中间原型,完成对中间原型的挖掘。

而后,新的中间原型在查询特征激活模块中对查询特征中的类别目标予以激活。

为了便于学习中间原型中的自适应类别信息,作者使用它在支持和查询图像上生成两个分割掩码,并计算两个分割损失。

并设计双工分割损失(DSL):

由于一个中间原型挖掘Transformer层可以更新中间原型、查询特征图和查询分割掩码,因此,作者通过迭代执行这个过程,得到越来越好的中间原型和查询特征,最终使分割结果得到有效提升。假设有L 层,那么对于每一层有:

上式中具体过程又可以分解为以下环节:

三、实验结果及可视化

图3 作者提出方法的结果的可视化与比较

在图3中,作者可视化了文章中方法和仅使用支持图像的小样本语义分割方法[1]的一些预测结果。可以看出,与第 2 行中仅使用支持信息的结果相比,第3行中的结果展现出作者的方法可以有效地缓解由固有的类内多样性引起的分割错误。

表4 与先前工作在PASCAL-5i[2]数据集上的效果比较

从表4中可以发现,作者的方法大大超过了所有其他方法,并取得了新的最先进的结果。在使用 ResNet-50 作为主干网络时, 在 1-shot 设置下与之前的最佳结果相比,作者将 mIoU 得分提高了 2.6。此外,在使用 ResNet-101作为主干网络时,作者方法实现了 1.8 mIoU(1-shot)和 2.2 mIoU(5-shot )的提升。

表5 各模块消融实验

表5中指出,当仅使用 IPM 会导致 5.3 mIoU 的性能下降。然而,当添加 DSL 时,模型的性能在baseline上实现了 4.1 mIoU 的提升。作者认为这种现象是合理的,因为无法保证 IPM 中的可学习原型将在没有 DSL 的情况下学习中间类别知识。同时,使用 QA 激活查询特征图可以进一步将模型性能提高 2.5 mIoU。这些结果清楚地验证了作者提出的 QA 和 DSL 的有效性。

表6 中间原型Transformer有效性的消融研究

在表6中,作者对比了仅使用support或者query提供类别信息时,和是否使用迭代方式提取信息时的模型的性能情况。可以看出,借助中间原型以迭代的方式从support和query中都获取类型信息所取得的效果更为出色,也验证了作者提出方法的有效性。

图7 支持原型和中间原型分别的可视化比较

如图7所示,作者将原本的支持原型可视化为橘色,学习到的中间原型可视化为蓝色,查询图像原型可视化为粉色。可以看到,在特征空间中,中间原型比支持原型更接近查询原型,因此验证了作者的方法有效地缓解了类内多样性问题并弥补了查询和支持图像之间的类别信息差距。

四、总结及结论

在文章中,作者关注到查询和支持之间的类内多样性,并引入中间原型来弥补它们之间的类别信息差距。核心思想是通过设计的中间原型挖掘Transformer并采取迭代的方式使用中间原型来聚合来自于支持图像的确定性类型信息和查询图像的自适应的类别信息。令人惊讶的是,尽管它很简单,但作者的方法在两个小样本语义分割基准数据集上大大优于以前的最新结果。为此,作者希望这项工作能够激发未来的研究能够更多地关注小样本语义分割的类内多样性问题。

参考

[1] Zhang, Gengwei, et al. "Few-shot segmentation via cycle-consistent transformer." Advances in Neural Information Processing Systems 34 (2021): 21984-21996.

[2] Shaban, Amirreza, et al. "One-shot learning for semantic segmentation." arXiv preprint arXiv:1709.03410 (2017).

原文作者:刘源炜,刘念,姚西文,韩军伟

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2022丨学习用于小样本语义分割的非目标知识
由于全卷积网络(Fully Convolutional Network, FCN)架构的快速发展,深度学习在语义分割方面取得了里程碑式的进展。大多数方法采用全监督学习方案,需要大量带注释的数据进行训练。尽管它们可以实现良好的性能,但它们数据饥渴的性质需要大量的像素级图像标注。 为了缓解这一问题,特斯联首席科学家邵岭博士及团队,提出了一个用于小样本语义分割的框架,在给定少量像素级标注的支持集(Support)图像的情况下,分割查询集(Query)图像中的目标物体。相关研究成果已于2022年CVPR发表,题为《
AI科技评论
2022/07/07
1.2K0
CVPR 2022丨学习用于小样本语义分割的非目标知识
CVPR 2022:Generalized Few-shot Semantic Segmentation 解读
之前已经有过关于小样本语义分割的论文解读,关于如何用 Transformer 思想的分类器进行小样本分割,链接见:https://mp.weixin.qq.com/s/YVg8aupmAxiu5lGTYrhpCg 。本篇是发表在 CVPR 2022 上的 Generalized Few-shot Semantic Segmentation(后文简称 GFS-Seg),既一种泛化的小样本语义分割模型。在看论文的具体内容之前,我们先了解一些前置知识。
李响Superb
2022/09/11
9580
CVPR 2022:Generalized Few-shot Semantic Segmentation 解读
ICCV 2021 | 简而优:用分类器变换器进行小样本语义分割
本文是对发表于计算机视觉领域的顶级会议 ICCV 2021的论文“Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer(简而优:用分类器变换器进行小样本语义分割)”的解读。
公众号-arXiv每日学术速递
2021/09/16
9530
从 CVPR 2019 一览小样本学习研究进展
AI 科技评论按:随着研究者们对样本利用效率的要求日益提高,小样本学习逐渐成为了 AI 领域以及相关顶会最热门的话题之一。色列特拉维夫大学的在读博士研究生 Eli Schwarts 参加完 CVPR 2019 后,针对今年 CVPR 2019 的热点之一——小样本学习整理出了一份论文清单,供大家从 CVPR 的维度一览小样本学习在目前的研究进展。
AI科技评论
2019/07/30
9060
从 CVPR 2019 一览小样本学习研究进展
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
本文提出了一个用于解决 few-shot 学习中的弱特征表征问题的新方法。研究人员观察到,通过嵌入补丁特征来建立support和query实例之间的联系的方法存在一个问题,即这局部补丁之间存在语义不匹配(前景/背景),因为目标对象的位置和大小不固定。这些不匹配会导致不可靠的相似度置信度,并且复杂的密集连接会加剧这个问题。
公众号-arXiv每日学术速递
2023/08/26
4640
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
ICLR 2025 Spotlight |「免费」多模态信息助力3D小样本分割
该文章的第一作者安照崇,目前在哥本哈根大学攻读博士学位,导师为 Serge Belongie。他硕士毕业于苏黎世联邦理工学院(ETH Zurich),在硕士期间,他跟随导师 Luc Van Gool 进行了多个研究项目。他的主要研究方向包括场景理解、小样本学习以及多模态学习。
机器之心
2025/03/10
1660
ICLR 2025 Spotlight |「免费」多模态信息助力3D小样本分割
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如,领域适应[2, 3],半监督[4, 5],弱监督[6, 7],小样本[8, 9]和零样本语义分割。
AIGC 先锋科技
2024/07/08
3850
长尾语义分割的挑战与解决方案,基于  Transformer 的 Query匹配在LTSS中的应用 !
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
DAFormer代表了UDA的一个重大进步。它在GTA→Cityscapes改善了10.8 mIoU、Synthia→Cityscapes提升了5.4 mIoU。
集智书童公众号
2022/05/26
2.9K0
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
CVPR 2021 | 腾讯优图20篇论文入选,含人脸识别、时序动作定位、视频动作分割等领域
计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共7015篇有效投稿,最终有1663篇突出重围被录取,录用率约为23.7%。本次,腾讯优图实验室共有20篇论文被收录,其中Oral论文4篇,涵盖人脸识别、对抗攻击、时序动作定位、视频动作分割、无监督人脸质量评估等前沿领域。
优图实验室
2021/03/11
1.6K0
CVPR小样本检测:蒸馏&上下文助力小样本检测(代码已开源)
计算机视觉研究院专栏 作者:Edison_G 目标检测现在的框架越来越多,我们“计算机视觉研究院”最近也分享了众多的目标检测框架!今天我们继续分享一个最新的检测框架——YOLOR。 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文:https://arxiv.org/pdf/2103.17115.pdf 开源代码: https://github.com/hzhupku/DCNet 1 前言 传统的基于深度学习的目标检测方法需要大量的边界框标注数据进行训练,获得
计算机视觉研究院
2022/03/14
1.4K0
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
近日,CVPR 2022官方公布了接收论文列表,来自腾讯优图实验室共计30篇论文被CVPR收录,论文涵盖包括场景文本语义识别、3D人脸重建、人体姿态估计 (HPE)、目标检测、图像风格转换、视频场景分割和视频插帧等研究领域。
优图实验室
2022/04/20
3K0
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
小样本目标检测研究综述
【导读】大家好,我是泳鱼。一个乐于探索和分享AI知识的码农!今天给大家带来一篇关于小样本目标检测的研究综述。本文从小样本目标检测任务和问题、学习策略、检测方法、数据集与实验等角度出发,对当前小样本目标检测的研究成果加以梳理和总结。希望这篇文章能对你有所帮助,让你在学习和应用AI技术的道路上更进一步!
算法进阶
2023/09/21
2.4K0
小样本目标检测研究综述
小样本检测:蒸馏&上下文助力小样本检测(代码已开源)
传统的基于深度学习的目标检测方法需要大量的边界框标注数据进行训练,获得如此高质量的标注数据成本很高。少样本目标检测,学习适应只有少数带注释的例子的新类,非常具有挑战性,因为新目标的细粒度特征很容易被忽略,而只有少数可用数据。
计算机视觉研究院
2023/08/24
6360
小样本检测:蒸馏&上下文助力小样本检测(代码已开源)
上海交大提出零样本语义分割:像素级别特征生成|已开源
本文介绍的论文是刚被ACM MM 2020接收的一篇零样本语义分割论文《Context-aware Feature Generation for Zero-shot Semantic Segmentation》。
AI科技评论
2020/08/28
1.3K0
上海交大提出零样本语义分割:像素级别特征生成|已开源
CVPR2020 | SANet:视觉注意力SE模块的改进,并用于语义分割
论文地址:https://arxiv.org/pdf/1909.03402.pdf
AI算法修炼营
2020/06/24
5.4K0
CM-UNet: 利用Mamba架构的高效全局上下文建模进行图像语义分割
远程遥感图像语义分割涉及将大规模遥感图像中的像素分类到不同的类别中,以增强对遥感(RS)数据的分析和解释。这种大规模的语义分割对于自动驾驶[1]、城市规划[2]、环境保护[3]以及其他许多实际应用都至关重要。
AIGC 先锋科技
2024/07/08
2.8K0
CM-UNet: 利用Mamba架构的高效全局上下文建模进行图像语义分割
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024/08/20
1K0
基于 Transformer 的多模态融合方法用于语义分割 !
使用混合 LORA 专家定制多模态语义分割的 SAM 模型 !
准确分割多样的物体对于各种场景理解应用至关重要,包括机器人感知、自动驾驶和AR/VR等[1]、[2]。段切 Anything 模型(SAM) [3] 在实例分割领域取得了突破性进展,尤其是在RGB图像方面。SAM在包含1100万张高分辨率图像及超过10亿个标注分割 Mask 的大规模数据集上进行训练,实现了卓越的零样本分割性能,使其能够在医疗成像、遥感等多个领域得到广泛应用。
AIGC 先锋科技
2025/02/12
3150
使用混合 LORA 专家定制多模态语义分割的 SAM 模型 !
ETH Zurich、A*STAR等联合工作:重新审视并改正小样本3D分割任务中的问题,新benchmark开启广阔提升可能性!
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation,重新审视并改正小样本3D分割任务中的问题,作者来自 ETH Zurich 等联合团队。
CV君
2024/06/17
1380
ETH Zurich、A*STAR等联合工作:重新审视并改正小样本3D分割任务中的问题,新benchmark开启广阔提升可能性!
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
在语义分割中,有两种典型的学习多尺度表示的方法。第一种涉及应用具有可变感受野的滤波器,经典技术如孔洞卷积(Chen等人,2018)或自适应池化(Zhao等人,2017)。通过调整超参数,如膨胀率和池化输出大小,网络可以改变感受野以在多个尺度上学习表示。
未来先知
2024/08/13
2070
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
推荐阅读
CVPR 2022丨学习用于小样本语义分割的非目标知识
1.2K0
CVPR 2022:Generalized Few-shot Semantic Segmentation 解读
9580
ICCV 2021 | 简而优:用分类器变换器进行小样本语义分割
9530
从 CVPR 2019 一览小样本学习研究进展
9060
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
4640
ICLR 2025 Spotlight |「免费」多模态信息助力3D小样本分割
1660
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
3850
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
2.9K0
CVPR 2021 | 腾讯优图20篇论文入选,含人脸识别、时序动作定位、视频动作分割等领域
1.6K0
CVPR小样本检测:蒸馏&上下文助力小样本检测(代码已开源)
1.4K0
CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域
3K0
小样本目标检测研究综述
2.4K0
小样本检测:蒸馏&上下文助力小样本检测(代码已开源)
6360
上海交大提出零样本语义分割:像素级别特征生成|已开源
1.3K0
CVPR2020 | SANet:视觉注意力SE模块的改进,并用于语义分割
5.4K0
CM-UNet: 利用Mamba架构的高效全局上下文建模进行图像语义分割
2.8K0
基于 Transformer 的多模态融合方法用于语义分割 !
1K0
使用混合 LORA 专家定制多模态语义分割的 SAM 模型 !
3150
ETH Zurich、A*STAR等联合工作:重新审视并改正小样本3D分割任务中的问题,新benchmark开启广阔提升可能性!
1380
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
2070
相关推荐
CVPR 2022丨学习用于小样本语义分割的非目标知识
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档