前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

作者头像
脑机接口社区
发布2024-06-21 16:40:47
1410
发布2024-06-21 16:40:47
举报
文章被收录于专栏:脑机接口脑机接口
6 月 15 日,万众瞩目的智源大会「多模态大模型」论坛轰动举行。纽约大学助理教授谢赛宁从哲学的角度出发,针对大语言时代的视觉表征研究娓娓道来。从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型、真实世界中的虚拟智能落地等方面介绍了团队的最新工作。通过这些工作,读者们可以窥见MLLM 的未来风向。

人工智能是否需要感知基础来实现理解?

实际上,早在 1990 年,Stevan Harnad 就讨论了符号基础的问题。那时,深度学习还没诞生。人们认为,只有当我们为人类语言或计算机代码赋予某种感知基础,这些符号才有意义。AI 要阻止出现「语义鸿沟」:通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上,而是建立在对图像所描述的对象或事件的语义理解的基础上。

在更早的 13世纪,意大利的神学家托马斯·阿奎纳曾提出「There’s nothing in mind that wasn’t first in the senses」的观点,即先有感知才有心智。此外,17 世纪的哲学家 Diderot、Condilac 等 Sensim 学派哲学家也认为:没有感知就没有认知。

针对这个问题,也有一些反方的观点。例如,Ibn Sina 曾讨论过一个「浮在空中的人」的思维实验,即一个漂浮在空中飞行的人,在没有任何感知基础的条件下,仍然可以思考数学、逻辑、哲学等问题而不需要与外界现实接触。

站在当前人工智能研究的角度,我们不妨思考下面的问题:单纯的语言模型只包含文本输入和输出,但是没有类似于人或者其它智慧生物的感知能力,感知能够将语言模型的思考能力提升到一个新的水平吗?

在 5 亿 3 千万年前的寒武纪的生物大爆炸后,地球上出现了生物。直到有初等生物进化出视觉信号,就可以更好地躲避天敌、获取食物。因此,生物之间开始了「军备竞赛」,必须有更好的视觉来进化出更强的智能。

Yann LeCun 最近针对大语言模型及其感知基础发表了以下观点:(1)大部分人类知识(以及几乎所有动物知识)都来自我们对物理世界的感知。语言是蛋糕上的糖霜。我们需要蛋糕来支撑糖霜。即对于语言模型的研究需要建立在感知模型之上。(2)在感知模型较差时,过早引入语言信号的强先验,可能会让我们误以为实现了很强的智能。当我们需要鲁棒、可信的人工智能系统时,这些薄弱关节会成为瓶颈。

在谢赛宁看来,现有的单纯的语言模型是一个盲人摸象般被遮蔽了双眼的博学的系统。

大型多模态模型的黎明

近年来,对于多模态、计算机视觉研究者来说,可以说步入了一个新的时代。随着,GPT-4V 等模型的出现,我们惊讶地发现,通过大语言模型的辅助,可以在一些传统计算机视觉研究领域难以解决的问题上取得很好的效果。

在开源社区中,LLaVA 是当下应用最广泛的系统之一。该系统构造非常简单,使用了一些预训练好的视觉模型、语言模型,并用简单的链接模块将其组合起来,将视觉编码器得到的视觉 token 投影到语言空间中,输入给语言模型。该系统包含两个阶段阶段:(1)用于特征对齐的预训练(2)端到端的指令微调。从而利用视觉和语言模块,实现多模态的能力。

在过去很长一段时间里面,出现了许多越来越强、越来越大的语言模型,但是对于视觉编码器而言,大家不约而同地使用 OpenAI 发布的 CLIP ViT,并使用其公开的权重。

2021 年发表的 CLIP 通过对比学习的方法对齐文本和视觉输入,我们使用其编码器,将其特征迁移到其它任务中。

那么,CLIP 现在还够用吗?对于语言理解来说,现有的视觉表征学习系统足够好吗?

睁大双眼?探索多模态大型语言模型的视觉缺陷

谢赛宁团队在 CVPR 2024 上发表了论文「Eyes Wide Shut?Exploring the Visual Shortcomings of Multimodal LLMs」。

如上图所示,在该论文中,我们系统性地找出了一些 GPT-4v 失败的案例。例如,相机中的狗的嘴朝向左侧还是右侧。

我们的目的是通过「CLIP-blind Pairs」方法构建一个新的名为「MMVP」的对比基准。首先,我们从一些现有的数据集(例如,ImageNet、LAION)中找出一些图像对。我们用 CLIP 和通过自监督方式训练的纯视觉模型分别得到在各自特征空间中的图像对嵌入特征。接着,我们分别在两个特征空间中度量图像对中两张图像的嵌入距离。我们希望这两张图像在 CLIP 的嵌入空间下的相似度非常高,而在纯视觉模型的特征空间下相似度非常低。

得到满足上述约束的图像对后,我们以「人在回路」的方式要求人类标注者写出两张图之间具体的视觉差异。由于先前机器完成了自动的筛选工作,这样的标注较为容易。

在构建了对比基准之后,我们可以利用它评价各种开源/闭源的多模态大语言模型,仅当模型对两幅图的回答都正确时才加 1 分。

如上图所示,我们惊讶地发现,人类可以很容易地找出两张图像之间的视觉差异,正确回答问题。但是大多数现有的多模态大模型性能却很差。

如上图所示,为了更加深入探究上述实验结果背后的原因,我们总结出了 9 类多模态系统会犯错的典型模式。

针对 Benchmark 上的这 9 类错误,我们重新构建了一个难度更高的图文匹配任务。尽管我们并不知道 GPT-4V 采用了哪一个模型,但是仍然可以将 CLIP 作为一个很强的视觉编码器。我们认为,CLIP 也很有可能会出现这些多模态系统在视觉方面出现的错误。

实验结果证明,CLIP 和其它多模态大语言模型出现错误的情况是一致的。

基于上述观察,我们尝试通过向 CLIP 编码器得到的特征中加入一些通过自监督方法训练的纯视觉编码器(例如,DINOv2)的特征。我们尝试了 Additive MoF、Interleaved MoF 等策略。在使用 Additive MoF 策略时,随着视觉特征越来越多,模型在 MMVP 上的性能不断增长,而在 LLaVA 上性能会变差,这可能是因为这种直观的 token 混合策略破坏了原有特征的性质。在使用 Interleaved MoF 策略时,可以在其它 VQA 任务上性能持平的情况下,在 MMVP 上取得很大的性能提升。

当使用 DINOv2 之外的自监督视觉模型实现 MoF 时,在 MMVP 测试任务上也可以取得很大的性能提升,即纯视觉模型的特征可以作为 CLIP 特征的补充。

根据这项工作,谢赛宁指出:研究社区急需比 CLIP 更强的继任者,在保持其优点的情况下,弥补其不足;视觉自监督学习仍然具有很高的研究价值;视觉基础对于语言理解和语义表示十分重要。

V*:将带引导的视觉搜索作为多模态 LLM 的核心机制

谢赛宁团队在 CVPR 2024 上发表的另一篇论文「V*:Guided Visual Search as a Core Mechanism in Multimodal LLMs」从另一个角度研究了视觉与语言模型的融合。

人的视网膜上存在中央凹结构,它只占视网膜 1% 不到的尺寸,但是却会激活大脑中超过 50% 的视觉皮质。我们的视觉和认知系统的能力是有限的,因此人类需要通过视觉搜索重点关注一些目标,忽略一些背景和不重要的部分。我们无时无刻不在进行视觉搜索。

如上图所示,如果我们想要知道:「塑料吸管是什么颜色的?」现有的视觉系统会从左上角开始扫描,然后对图中所有信息进行编码、处理。对于人类来说,这样做的认知负担过高,效率太低。由于吸管可能会出现在桌子上的咖啡杯中,人类会看看桌子上有没有吸管,如果没有发现,会优先再查看下一个桌子,这是一个很自然也很必要的过程。

认知科学家和心理学家对该问题也有很多的研究。为了执行视觉搜索,人类可能考虑以下五种引导信息:(1)自底向上的显著性引导:显著性视觉特性(2)自顶向下的特征引导:目标物体的已知特征(3)场景引导:语义信息和世界知识(4)基于先前的搜索历史引导(5)基于感知到的某些物体或特征的价值的引导。

在机器学习领域,也有研究者对视觉搜索进行了大量的研究,许多研究者关心更好地模仿人类注视的结构和轨迹,但仍很难准确定位目标、他们处理的图像分辨率优先,且严重依赖统计相关性,泛化能力较差。

为了设计更好的视觉搜索模型,我们可以借鉴前文中提到的自底向上的引导、自顶向下的引导、场景引导等思路。与过去相比,我们可以利用 LLM 提供的丰富的世界知识编码,尽管 LLM 没有视觉基础,也不一定可信,但仍然可以提供很好的引导,给出一些先验。在此基础之上,我们提出了 SEAL 框架(Show,sERach and telL),旨在将视觉搜索能力融入到多模态大模型中。

CLIP 也并非现代多模态模型的唯一短板。在现代 MLLM,视觉信息的瓶颈在于,人们还是使用冻结的在小规模图像数据上预训练的手额编码器。并不能重点关注关键的视觉信息。并不能推理出缺失的视觉信息,并不能灵活、动态地搜索缺失的视觉目标的信息。

受到人类认知科学研究的启发,我们的视觉搜索模型多轮循环,为系统注入大语言模型的引导。基于视觉主干网络,我们使用多模态语言模型搜索视觉线索,解码器会分别输出搜索到的线索和目标位置。这是现有的 CLIP 等系统无法做到的。

例如,如果问模型「橙色行李最有可能在哪里?」模型会回答道:「橙色行李最有可能在人旁边」,这样就提供了世界知识。接下来,我们就会一步步找到城墙、再找到人。搜索到的线索会被存储在热力图中,可以通过这个搜索热力图找到概率最大的地方,再进行下一轮的搜索,最终找到目标物体。整个视觉搜索的部分实际上就是递归地对图像做不停的切分。

SEAL 是一个元架构,代表了一套使用 LLM 的思想。从长远来看,这种架构是很有必要的。SEAL 架构包含以下 3 个部分:(1)VQA 大语言模型(2)视觉工作记忆(VWM)(3)视觉搜索模块。VQA是人与系统交互的接口,当我们没有看到自己需要的视觉信息时,会激活视觉搜索模型,获取需要的视觉信息,并将其填充到视觉工作记忆中。接着,VQA 的大语言模型会从视觉工作记忆中获取相关信息,回答用户的问题。视觉工作记忆可以包含各种内容,例如:原始问题、全局上下文、视觉搜索的结果等。

在上图的例子中,如果我们仔细观察图片会发现杯子上有一个星巴克的图像。如果我们问多模态大模型应该去哪里买这样的杯子,我们应该回答说可以去星巴克买。而 GPT-4V 会被其它部分的视觉信息干扰,从而回答错误。

V* 所做的事情并并不是一个工程上的巧妙的解决方案。对于一个 MLLM 系统来说,它需要具备以下几点能力:(1)明确知道初始化的视觉信息是否足够,知道自己没有看到所需要的视觉信息(2)显式地列出所需要的额外的视觉信息(3)在视觉搜索后,理解并融合搜索的结果(4)为复杂任务分配更多的计算资源。

为此,我们提出了一个名为「V*Bench」的新的对比基准。在构建这个对比基准时,我们加入了一些高分辨率的图像。通过加入视觉搜索能力,我们在这个对比任务上取得了 75% 左右的得分,而 GPT-4V 得分为 50% 左右。

谢赛宁指出,从先前的搜索历史中学习到先验知识十分重要。此外,也许对于如今的互联网图像,这种视觉搜索能力并不一定是必须的,我们也许只需要通过视觉编码器进行统一的编码。但是对于处理以后的长视频数据、3D、具身智能体的数据而言,这种「系统 2 」的视觉搜索能力也许很关键。

谢赛宁团队利用这种多模态大模型,在 ICLR 2024 上发表了论文论文「What Does A Visual Formal Analysis Of The World's 500 Most Famous Paintings Tell Us About Multimodal LLMs?」,对全球排名前 500 的名画做了一些非常细节的形式化分析,起到了很好的效果。

V-IRL:虚拟智能在现实生活中的落地

谢赛宁团队发布了一个名为 V-IRL 的系统(https://virl-platform.github.io/),试图将虚拟智能在现实生活中落地。目前,大多数与 Agent 相关的工作都被部署在沙盒游戏中。然而,这更多只能算是开放互联网环境下的感知,而不是真正开放世界中的感知。为此,团队在 V-IRL 项目中,创建了不同的 Agent,他们有自己的行为、性格,并且在真实环境下部署。这些 Agent 上部署有大语言模型、视觉模型,将语言与视觉融合到一起,是较为复杂的系统。

智能体可以在纽约的中央公园中数有多少个垃圾桶、也可以通过合作的方式进行路线导航,还可以为人们提供每天的行动规划。我们认为,这个环境是衡量大模型性能的很好的评测任务。

实际上,在将 Agent 部署到真实世界中之后,我们会发现许多新的难题。例如,当部署场景的语言环境变化时,Agent 的性能会变得很差。我们期待该平台在机器人、3D、AR 等领域的应用。

学习范式的转变:监督学习、自监督学习,通过 MLLM 学习

监督学习的能力往往十分有限,这是因为我们试图把各种各样的输入强行映射到最后的标签上。网络的学习也许会依赖于虚假的关联或强行记忆映射,这导致了监督学习的泛化能力较差。

我们之所以要做自监督学习,其原因之一就是要构建上下文知识,近似地在 AI 系统中形成一些「常识」。实际上,CLIP 是一个强监督的学习范式。因为语言能够提供的监督信号远远强于标签。

然而,近年来自监督学习领域可能有些停滞不前了。这一领域的研究未来应该走向何方呢?

在谢赛宁看来,对于自监督学习领域来说,强语言监督训练的 CLIP 就是新时代的 ImageNet 预训练。但我们需要改变做视觉自监督学习研究的方法。

谢赛宁团队近期会发布一篇名为「Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs」的论文,探索使用 MLLM 学习视觉表征。

以往,我们首先会开发各种视觉模型,然后在分类、分割、检测等任务上测评网络的性能。今后,一种可行的方案是我们可以将 LLaVA 这样的多模态系统作为视觉表征学习的 Pipeline。

为此,我们利用 TPU 搭建了一系列新的实验基础设施,将发布 PyTorch XLA 和 JAX 的教程。在数据方面,我们构建了全开放、大规模的精选指令微调数据集。为了构建新的通过 MLLM 进行视觉表征学习的评测基准,谢赛宁团队引入了超过 20 种视觉模型并进行了微调。

我们希望,这一评测基准将策划功能为指令微调 MLLM 的指南,涉及:视觉表征学习、链接模块设计、指令微调数据、指令微调方法,评测方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 人工智能是否需要感知基础来实现理解?
  • 大型多模态模型的黎明
  • 睁大双眼?探索多模态大型语言模型的视觉缺陷
  • V*:将带引导的视觉搜索作为多模态 LLM 的核心机制
  • V-IRL:虚拟智能在现实生活中的落地
  • 学习范式的转变:监督学习、自监督学习,通过 MLLM 学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档