Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

作者头像
量子位
发布于 2024-01-04 06:33:47
发布于 2024-01-04 06:33:47
1.1K0
举报
文章被收录于专栏:量子位量子位

多模态大模型爆发,准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗?

目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述,在像素级理解方面的能力(例如物体分割)相对有限。

针对这个问题,一些工作开始探索借助多模态大模型来处理用户的分割指令(例如,“请分割出图片中富含维生素C的水果”)。

然而,市面上的方法都存在两个主要缺点:

1) 无法处理涉及多个目标对象的任务,而这在现实世界场景中是不可或缺的;

2) 依赖于像SAM这样的预训练图像分割模型,而SAM的一次前向传播需要的计算量已经足够 Llama-7B产生500多个token了。

为了解决此问题,字节跳动智能创作团队联合北京交通大学、北京科技大学的研究人员提出了首个无需依赖SAM的高效像素级推理大模型PixelLM

在具体介绍它之前,先来体验几组PixelLM实际分割的效果:

相比之前的工作,PixelLM的优势在于:

  • 能够熟练处理任意数量的开放域目标和多样化的复杂推理分割任务。
  • 避免了额外的、成本高昂的分割模型,提升了效率和对不同应用的迁移能力。

进一步,为了支持这一研究领域的模型训练和评估,研究团队在LVIS数据集的基础之上,借助大模型构建了一个面向多目标推理分割场景的数据集MUSE,它包含20万个以上的问题-答案对,涉及90万个以上的实例分割掩码。

为了实现上述的效果,这项研究具体是如何做的呢?

背后原理

如论文中的框架图所示,PixelLM架构十分简洁,包括四个主要部分,后两者是PixelLM的核心:

  1. 预训练的CLIP-ViT视觉编码器
  2. 大语言模型
  3. 轻量级像素解码器
  4. 分割码表 Seg Codebook

Seg codebook包含可学习的tokens,它们用于编码CLIP-ViT不同尺度上的目标信息。然后,像素解码器基于这些tokens和CLIP-ViT的图像特征生成目标分割结果。得益于这种设计,PixelLM可以在没有外部分割模型的情况下生成高质量的分割结果,显著提高了模型效率。

根据研究人员的描述,Seg codebook内的tokens可分为L组,每一组包含N个token,每个组对应于来自CLIP-ViT视觉特征的一个尺度。

对于输入的图像,PixelLM从CLIP-ViT视觉编码器产的图像特征中提取出L个尺度的特征,其中最后一层涵盖了全局图像信息,会被LLM用作理解图像内容。

Seg codebook的tokens将会与文本指令及最后一层图像特征一起输入LLM中,以自回归的形式产生输出。而输出中也将包含经过LLM处理后的Seg codebook tokens,它们将与L个尺度的CLIP-ViT特征一起输入到像素解码器中产生最终的分割结果。

那么为什么还要设置每组包含N个token呢?研究人员结合下图进行了解释:

在涉及多个目标或目标所包含的语义十分复杂的情景中,尽管LLM可以提供详细的文本响应,但仅使用单个token可能无法充分捕捉目标语义的全部内容。

为了增强模型在复杂推理情景下的能力,研究人员在每个尺度组内引入多个token,并执行一个token的线性融合操作。在token传入解码器之前,使用线性投影层将每个分组内的token合并。

下图展示了每组内多个token时的效果。注意力图是每个token经过解码器处理后的样子,这个可视化结果表明,多个token提供了独特且互补的信息,从而实现了更有效的分割输出。

此外,为了增强模型区分多个目标的能力,PixelLM还额外设计了一个Target Refinement Loss。

MUSE数据集

尽管已经提出了上述解决方案,但为了充分发挥模型的能力,模型仍然需要适当的训练数据。回顾目前可用的公开数据集,发现现有的数据存在以下主要限制:

1) 对物体细节的描述不够充足; 2) 缺乏具有复杂推理和多种目标数量的问题-答案对。

为了解决这些问题,研究团队借助大模型构建了一个自动化的数据标注流水线,并由此产生了MUSE数据集。下图展示了MUSE生成时所用到的Prompt及产生的数据示例。

在MUSE中,所有实例掩码都来自LVIS数据集,并且额外添加了根据图像内容生成的详细文本描述。MUSE包含了24.6万个问题-答案对,每个问题-答案对平均涉及3.7个目标物体。此外,研究团队对数据集进行了详尽的统计分析:

类别统计:MUSE中有来自原始LVIS数据集的1000多个类别,以及90万个具有独特描述的实例,这些描述基于问题-答案对的上下文而变化。图(a)显示了所有问题-答案对中每个类别的实例数量。

Token数目统计:图(b)展示了实例描述的token数目分布,其中有的实例描述包含了超过100个tokens。这些描述不仅限于简单的类别名称;相反,它们通过基于大模型的数据生成流程,大量丰富了每个实例的详细信息,涵盖了外观、属性和与其他对象的关系等。数据集中信息的深度和多样性增强了训练模型的泛化能力,使其能够有效地解决开放域问题。

目标数目统计:图(c)展示了每个问题-答案对中目标数量的统计数据。平均目标数量为3.7,最大目标数量可达34个。这个数字可以覆盖单个图像的大多数目标推理场景。

算法测评

研究团队在三个benchmark上评测了PixelLM的性能,包括MUSE benchmark, referring segmentation benchmark,以及multi-referring segmentation benchmark. 在multi-referring segmentation benchmark中,研究团队要求模型在一个问题中连续地分割出referring segmentation benchmark中每幅图像包含的多个目标。

同时,由于PixelLM是首个处理涉及多目标复杂像素推理任务的模型,研究团队建立了四个baseline以对模型进行比较分析。

其中三个baseline基于与PixelLM最相关工作LISA,包括:

1)原始的LISA;

2)LISA_rec: 先将问题输入LLAVA-13B以得到目标的文本回复,再用LISA分割这些文本;

3)LISA_aug:直接将MUSE加入LISA的训练数据。

4) 另外一个则是不使用LLM的通用分割模型SEEM。

在三个benchmark的绝大多数指标上,PixelLM的性能均优于其他方法,且由于PixelLM不依赖于SAM,其TFLOPs远远低于同尺寸的模型。

感兴趣的小伙伴可以先关注一波,坐等代码开源了~

参考链接: [1]https://arxiv.org/abs/2312.02228 [2]https://pixellm.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
1230
论文解读 - 统一的多模态理解和生成模型综述(上)
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.5K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
本文作者均来自北京大学王选计算机研究所。主要作者包括:林志威,北京大学博士生;王勇涛,北京大学副研究员;汤帜,北京大学研究员。
计算机视觉研究院
2024/11/18
2180
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
DINOv2:无需微调,填补 SAM 的空白,支持多个下游任务
前段时间,Meta AI 高调发布了 Segment Anything(SAM),SAM 以交互式方式快速生成 Mask,并可以对从未训练过的图片进行精准分割,可以根据文字提示或使用者点击进而圈出图像中的特定物体,其灵活性在图像分割领域内属首创。
OpenMMLab 官方账号
2023/08/21
6.2K0
DINOv2:无需微调,填补 SAM 的空白,支持多个下游任务
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。
机器之心
2024/02/26
2060
让视觉语言模型搞空间推理,谷歌又整新活了
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
基于深度学习算法在结肠镜检查过程中检测癌前病变已显示出巨大潜力。近期,一种基础模型,即Segment Anything Model(SAM),被引入用于通用语义分割。一些研究探索了其在息肉分割中的零样本推理或微调[17, 9]潜力。
AIGC 先锋科技
2024/07/08
3050
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文 80 余篇,谷歌引用 9700 余次。荣获世界人工智能顶会 AAAI 最佳论文奖,位列世界最大学术源代码仓库 Trending Research 第一位。
机器之心
2024/06/27
3720
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
被误解的「中文版Sora」背后,字节跳动有哪些技术?
这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。
机器之心
2024/03/18
1470
被误解的「中文版Sora」背后,字节跳动有哪些技术?
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
在遥感和(RS)社区中,早期的视觉定位任务[26, 37]特指在卫星图像和相关文本 Query 的基础上,给出特定物体的水平边界框(HBBs)的位置。随着RS数据集[12, 25, 34]的日益丰富,研究行人开始使用定向边界框(OBBs)[9]或分割 Mask [36]来更准确地描绘所指物体。RS视觉定位使得人类能够以更直观的方式与计算机进行互动,这在提高智能RS解释系统的效率方面具有巨大的潜力[29]。
AIGC 先锋科技
2025/01/07
2250
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
在最近的一篇论文中,来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。
机器之心
2025/02/15
1430
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24
论文: SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
VincentLee
2024/11/13
2070
SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。
OpenCV学堂
2023/12/11
8350
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
---- 新智元报道   编辑:LRS 【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer! 最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。 论文链接:https://arxiv.org/pdf/2301.00704.pdf 项目链接:https://muse-mod
新智元
2023/02/24
8670
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
3150
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
随着生成式AI的快速发展,大语言模型(LLM) 成为研究和应用的关注焦点。它们在理解和生成文本方面展现出强大的能力,推动了机器学习和人类机交互的演变。
未来先知
2024/09/30
5200
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
生成预训练Transformer(Generative Pre-trained Transformer,GPT)系列模型的成功表明,如果在大规模数据上进行训练,大型语言模型在零样本和非可视域中的少量快照任务上的性能与最新技术相当。
集智书童公众号
2023/09/04
9570
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
计算机视觉领域的基础模型
在计算摄影学的研究和应用中,计算机视觉(Computer Vision)技术扮演了至关重要的角色。计算机视觉不仅帮助我们理解和处理图像和视频数据,还为我们提供了丰富的工具和方法,以提升摄影和图像处理的效果。为了帮助大家更好地理解和应用这些技术,我准备也在星球中介绍更多关于计算机视觉的内容,首先我会引用一些文章,来介绍“计算机视觉领域的基础模型”。
HawkWang
2024/06/26
8620
计算机视觉领域的基础模型
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
通用深度神经网络模型是推动人工智能(AI)在众多应用中广泛应用的关键。通用AI模型经过一次训练即可快速部署到各种不同的用例或目标中。开发和部署之间的不对称性极大地提高了数据使用效率,摊薄了模型训练的成本和能耗,从而鼓励对高质量特征学习过程的投资。基础模型是针对广泛和全面的数据显示的大型和深度生成神经网络模型。最近,已经为不同的数据领域(如视觉、语言和音频)开发了各种基础模型。基础模型作为可适应不同任务或数据领域的通用AI模型,展现出巨大的潜力。虽然这些模型通常针对几个特定目标进行训练,但它们在处理新颖任务方面也表现出色。例如,用于序列预测的大型语言模型(LLM)可以 Prompt 解决问答任务或语言翻译 Query ,而大型扩散模型可以生成以前从未见过的物体和姿态组合的图像。
未来先知
2024/12/19
3740
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 大模型,解锁多模态大模型“推理分割”能力。
CV君
2023/08/31
1.1K0
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
5470
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
推荐阅读
论文解读 - 统一的多模态理解和生成模型综述(上)
1230
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.5K0
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
2180
DINOv2:无需微调,填补 SAM 的空白,支持多个下游任务
6.2K0
让视觉语言模型搞空间推理,谷歌又整新活了
2060
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
3050
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
3720
被误解的「中文版Sora」背后,字节跳动有哪些技术?
1470
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
2250
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
1430
SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24
2070
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
8350
Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍
8670
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
3150
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
5200
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
9570
计算机视觉领域的基础模型
8620
无需训练的视觉分割技术:SAC助力SAM实现自动化类别分割 !
3740
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
1.1K0
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
5470
相关推荐
论文解读 - 统一的多模态理解和生成模型综述(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档