Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

作者头像
脑机接口社区
发布于 2024-06-21 08:40:47
发布于 2024-06-21 08:40:47
2410
举报
文章被收录于专栏:脑机接口脑机接口
6 月 15 日,万众瞩目的智源大会「多模态大模型」论坛轰动举行。纽约大学助理教授谢赛宁从哲学的角度出发,针对大语言时代的视觉表征研究娓娓道来。从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型、真实世界中的虚拟智能落地等方面介绍了团队的最新工作。通过这些工作,读者们可以窥见MLLM 的未来风向。

人工智能是否需要感知基础来实现理解?

实际上,早在 1990 年,Stevan Harnad 就讨论了符号基础的问题。那时,深度学习还没诞生。人们认为,只有当我们为人类语言或计算机代码赋予某种感知基础,这些符号才有意义。AI 要阻止出现「语义鸿沟」:通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上,而是建立在对图像所描述的对象或事件的语义理解的基础上。

在更早的 13世纪,意大利的神学家托马斯·阿奎纳曾提出「There’s nothing in mind that wasn’t first in the senses」的观点,即先有感知才有心智。此外,17 世纪的哲学家 Diderot、Condilac 等 Sensim 学派哲学家也认为:没有感知就没有认知。

针对这个问题,也有一些反方的观点。例如,Ibn Sina 曾讨论过一个「浮在空中的人」的思维实验,即一个漂浮在空中飞行的人,在没有任何感知基础的条件下,仍然可以思考数学、逻辑、哲学等问题而不需要与外界现实接触。

站在当前人工智能研究的角度,我们不妨思考下面的问题:单纯的语言模型只包含文本输入和输出,但是没有类似于人或者其它智慧生物的感知能力,感知能够将语言模型的思考能力提升到一个新的水平吗?

在 5 亿 3 千万年前的寒武纪的生物大爆炸后,地球上出现了生物。直到有初等生物进化出视觉信号,就可以更好地躲避天敌、获取食物。因此,生物之间开始了「军备竞赛」,必须有更好的视觉来进化出更强的智能。

Yann LeCun 最近针对大语言模型及其感知基础发表了以下观点:(1)大部分人类知识(以及几乎所有动物知识)都来自我们对物理世界的感知。语言是蛋糕上的糖霜。我们需要蛋糕来支撑糖霜。即对于语言模型的研究需要建立在感知模型之上。(2)在感知模型较差时,过早引入语言信号的强先验,可能会让我们误以为实现了很强的智能。当我们需要鲁棒、可信的人工智能系统时,这些薄弱关节会成为瓶颈。

在谢赛宁看来,现有的单纯的语言模型是一个盲人摸象般被遮蔽了双眼的博学的系统。

大型多模态模型的黎明

近年来,对于多模态、计算机视觉研究者来说,可以说步入了一个新的时代。随着,GPT-4V 等模型的出现,我们惊讶地发现,通过大语言模型的辅助,可以在一些传统计算机视觉研究领域难以解决的问题上取得很好的效果。

在开源社区中,LLaVA 是当下应用最广泛的系统之一。该系统构造非常简单,使用了一些预训练好的视觉模型、语言模型,并用简单的链接模块将其组合起来,将视觉编码器得到的视觉 token 投影到语言空间中,输入给语言模型。该系统包含两个阶段阶段:(1)用于特征对齐的预训练(2)端到端的指令微调。从而利用视觉和语言模块,实现多模态的能力。

在过去很长一段时间里面,出现了许多越来越强、越来越大的语言模型,但是对于视觉编码器而言,大家不约而同地使用 OpenAI 发布的 CLIP ViT,并使用其公开的权重。

2021 年发表的 CLIP 通过对比学习的方法对齐文本和视觉输入,我们使用其编码器,将其特征迁移到其它任务中。

那么,CLIP 现在还够用吗?对于语言理解来说,现有的视觉表征学习系统足够好吗?

睁大双眼?探索多模态大型语言模型的视觉缺陷

谢赛宁团队在 CVPR 2024 上发表了论文「Eyes Wide Shut?Exploring the Visual Shortcomings of Multimodal LLMs」。

如上图所示,在该论文中,我们系统性地找出了一些 GPT-4v 失败的案例。例如,相机中的狗的嘴朝向左侧还是右侧。

我们的目的是通过「CLIP-blind Pairs」方法构建一个新的名为「MMVP」的对比基准。首先,我们从一些现有的数据集(例如,ImageNet、LAION)中找出一些图像对。我们用 CLIP 和通过自监督方式训练的纯视觉模型分别得到在各自特征空间中的图像对嵌入特征。接着,我们分别在两个特征空间中度量图像对中两张图像的嵌入距离。我们希望这两张图像在 CLIP 的嵌入空间下的相似度非常高,而在纯视觉模型的特征空间下相似度非常低。

得到满足上述约束的图像对后,我们以「人在回路」的方式要求人类标注者写出两张图之间具体的视觉差异。由于先前机器完成了自动的筛选工作,这样的标注较为容易。

在构建了对比基准之后,我们可以利用它评价各种开源/闭源的多模态大语言模型,仅当模型对两幅图的回答都正确时才加 1 分。

如上图所示,我们惊讶地发现,人类可以很容易地找出两张图像之间的视觉差异,正确回答问题。但是大多数现有的多模态大模型性能却很差。

如上图所示,为了更加深入探究上述实验结果背后的原因,我们总结出了 9 类多模态系统会犯错的典型模式。

针对 Benchmark 上的这 9 类错误,我们重新构建了一个难度更高的图文匹配任务。尽管我们并不知道 GPT-4V 采用了哪一个模型,但是仍然可以将 CLIP 作为一个很强的视觉编码器。我们认为,CLIP 也很有可能会出现这些多模态系统在视觉方面出现的错误。

实验结果证明,CLIP 和其它多模态大语言模型出现错误的情况是一致的。

基于上述观察,我们尝试通过向 CLIP 编码器得到的特征中加入一些通过自监督方法训练的纯视觉编码器(例如,DINOv2)的特征。我们尝试了 Additive MoF、Interleaved MoF 等策略。在使用 Additive MoF 策略时,随着视觉特征越来越多,模型在 MMVP 上的性能不断增长,而在 LLaVA 上性能会变差,这可能是因为这种直观的 token 混合策略破坏了原有特征的性质。在使用 Interleaved MoF 策略时,可以在其它 VQA 任务上性能持平的情况下,在 MMVP 上取得很大的性能提升。

当使用 DINOv2 之外的自监督视觉模型实现 MoF 时,在 MMVP 测试任务上也可以取得很大的性能提升,即纯视觉模型的特征可以作为 CLIP 特征的补充。

根据这项工作,谢赛宁指出:研究社区急需比 CLIP 更强的继任者,在保持其优点的情况下,弥补其不足;视觉自监督学习仍然具有很高的研究价值;视觉基础对于语言理解和语义表示十分重要。

V*:将带引导的视觉搜索作为多模态 LLM 的核心机制

谢赛宁团队在 CVPR 2024 上发表的另一篇论文「V*:Guided Visual Search as a Core Mechanism in Multimodal LLMs」从另一个角度研究了视觉与语言模型的融合。

人的视网膜上存在中央凹结构,它只占视网膜 1% 不到的尺寸,但是却会激活大脑中超过 50% 的视觉皮质。我们的视觉和认知系统的能力是有限的,因此人类需要通过视觉搜索重点关注一些目标,忽略一些背景和不重要的部分。我们无时无刻不在进行视觉搜索。

如上图所示,如果我们想要知道:「塑料吸管是什么颜色的?」现有的视觉系统会从左上角开始扫描,然后对图中所有信息进行编码、处理。对于人类来说,这样做的认知负担过高,效率太低。由于吸管可能会出现在桌子上的咖啡杯中,人类会看看桌子上有没有吸管,如果没有发现,会优先再查看下一个桌子,这是一个很自然也很必要的过程。

认知科学家和心理学家对该问题也有很多的研究。为了执行视觉搜索,人类可能考虑以下五种引导信息:(1)自底向上的显著性引导:显著性视觉特性(2)自顶向下的特征引导:目标物体的已知特征(3)场景引导:语义信息和世界知识(4)基于先前的搜索历史引导(5)基于感知到的某些物体或特征的价值的引导。

机器学习领域,也有研究者对视觉搜索进行了大量的研究,许多研究者关心更好地模仿人类注视的结构和轨迹,但仍很难准确定位目标、他们处理的图像分辨率优先,且严重依赖统计相关性,泛化能力较差。

为了设计更好的视觉搜索模型,我们可以借鉴前文中提到的自底向上的引导、自顶向下的引导、场景引导等思路。与过去相比,我们可以利用 LLM 提供的丰富的世界知识编码,尽管 LLM 没有视觉基础,也不一定可信,但仍然可以提供很好的引导,给出一些先验。在此基础之上,我们提出了 SEAL 框架(Show,sERach and telL),旨在将视觉搜索能力融入到多模态大模型中。

CLIP 也并非现代多模态模型的唯一短板。在现代 MLLM,视觉信息的瓶颈在于,人们还是使用冻结的在小规模图像数据上预训练的手额编码器。并不能重点关注关键的视觉信息。并不能推理出缺失的视觉信息,并不能灵活、动态地搜索缺失的视觉目标的信息。

受到人类认知科学研究的启发,我们的视觉搜索模型多轮循环,为系统注入大语言模型的引导。基于视觉主干网络,我们使用多模态语言模型搜索视觉线索,解码器会分别输出搜索到的线索和目标位置。这是现有的 CLIP 等系统无法做到的。

例如,如果问模型「橙色行李最有可能在哪里?」模型会回答道:「橙色行李最有可能在人旁边」,这样就提供了世界知识。接下来,我们就会一步步找到城墙、再找到人。搜索到的线索会被存储在热力图中,可以通过这个搜索热力图找到概率最大的地方,再进行下一轮的搜索,最终找到目标物体。整个视觉搜索的部分实际上就是递归地对图像做不停的切分。

SEAL 是一个元架构,代表了一套使用 LLM 的思想。从长远来看,这种架构是很有必要的。SEAL 架构包含以下 3 个部分:(1)VQA 大语言模型(2)视觉工作记忆(VWM)(3)视觉搜索模块。VQA是人与系统交互的接口,当我们没有看到自己需要的视觉信息时,会激活视觉搜索模型,获取需要的视觉信息,并将其填充到视觉工作记忆中。接着,VQA 的大语言模型会从视觉工作记忆中获取相关信息,回答用户的问题。视觉工作记忆可以包含各种内容,例如:原始问题、全局上下文、视觉搜索的结果等。

在上图的例子中,如果我们仔细观察图片会发现杯子上有一个星巴克的图像。如果我们问多模态大模型应该去哪里买这样的杯子,我们应该回答说可以去星巴克买。而 GPT-4V 会被其它部分的视觉信息干扰,从而回答错误。

V* 所做的事情并并不是一个工程上的巧妙的解决方案。对于一个 MLLM 系统来说,它需要具备以下几点能力:(1)明确知道初始化的视觉信息是否足够,知道自己没有看到所需要的视觉信息(2)显式地列出所需要的额外的视觉信息(3)在视觉搜索后,理解并融合搜索的结果(4)为复杂任务分配更多的计算资源。

为此,我们提出了一个名为「V*Bench」的新的对比基准。在构建这个对比基准时,我们加入了一些高分辨率的图像。通过加入视觉搜索能力,我们在这个对比任务上取得了 75% 左右的得分,而 GPT-4V 得分为 50% 左右。

谢赛宁指出,从先前的搜索历史中学习到先验知识十分重要。此外,也许对于如今的互联网图像,这种视觉搜索能力并不一定是必须的,我们也许只需要通过视觉编码器进行统一的编码。但是对于处理以后的长视频数据、3D、具身智能体的数据而言,这种「系统 2 」的视觉搜索能力也许很关键。

谢赛宁团队利用这种多模态大模型,在 ICLR 2024 上发表了论文论文「What Does A Visual Formal Analysis Of The World's 500 Most Famous Paintings Tell Us About Multimodal LLMs?」,对全球排名前 500 的名画做了一些非常细节的形式化分析,起到了很好的效果。

V-IRL:虚拟智能在现实生活中的落地

谢赛宁团队发布了一个名为 V-IRL 的系统(https://virl-platform.github.io/),试图将虚拟智能在现实生活中落地。目前,大多数与 Agent 相关的工作都被部署在沙盒游戏中。然而,这更多只能算是开放互联网环境下的感知,而不是真正开放世界中的感知。为此,团队在 V-IRL 项目中,创建了不同的 Agent,他们有自己的行为、性格,并且在真实环境下部署。这些 Agent 上部署有大语言模型、视觉模型,将语言与视觉融合到一起,是较为复杂的系统。

智能体可以在纽约的中央公园中数有多少个垃圾桶、也可以通过合作的方式进行路线导航,还可以为人们提供每天的行动规划。我们认为,这个环境是衡量大模型性能的很好的评测任务。

实际上,在将 Agent 部署到真实世界中之后,我们会发现许多新的难题。例如,当部署场景的语言环境变化时,Agent 的性能会变得很差。我们期待该平台在机器人、3D、AR 等领域的应用。

学习范式的转变:监督学习、自监督学习,通过 MLLM 学习

监督学习的能力往往十分有限,这是因为我们试图把各种各样的输入强行映射到最后的标签上。网络的学习也许会依赖于虚假的关联或强行记忆映射,这导致了监督学习的泛化能力较差。

我们之所以要做自监督学习,其原因之一就是要构建上下文知识,近似地在 AI 系统中形成一些「常识」。实际上,CLIP 是一个强监督的学习范式。因为语言能够提供的监督信号远远强于标签。

然而,近年来自监督学习领域可能有些停滞不前了。这一领域的研究未来应该走向何方呢?

在谢赛宁看来,对于自监督学习领域来说,强语言监督训练的 CLIP 就是新时代的 ImageNet 预训练。但我们需要改变做视觉自监督学习研究的方法。

谢赛宁团队近期会发布一篇名为「Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs」的论文,探索使用 MLLM 学习视觉表征。

以往,我们首先会开发各种视觉模型,然后在分类、分割、检测等任务上测评网络的性能。今后,一种可行的方案是我们可以将 LLaVA 这样的多模态系统作为视觉表征学习的 Pipeline。

为此,我们利用 TPU 搭建了一系列新的实验基础设施,将发布 PyTorch XLA 和 JAX 的教程。在数据方面,我们构建了全开放、大规模的精选指令微调数据集。为了构建新的通过 MLLM 进行视觉表征学习的评测基准,谢赛宁团队引入了超过 20 种视觉模型并进行了微调。

我们希望,这一评测基准将策划功能为指令微调 MLLM 的指南,涉及:视觉表征学习、链接模块设计、指令微调数据、指令微调方法,评测方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2480
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
其中语言监督方法,如对比语言-图像预训练(CLIP),利用成对的图像-文本数据来学习富含语言语义的表示。
新智元
2025/04/09
660
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
每日学术速递1.3
1.LangSplat: 3D Language Gaussian Splatting
AiCharm
2024/01/04
2030
每日学术速递1.3
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
大型语言模型(LLM)在大多数自然语言任务上取得了令人鼓舞的性能,并在解决现实世界问题中展现出了强大的泛化能力。从LLM派生出的多模态大型语言模型(MLLM)通过感知现实世界的视觉信息,向人工通用智能(AGI)迈出了一步。因此,感知视觉信息的方式是从LLM向MLLM转变的关键。
AIGC 先锋科技
2024/07/08
2430
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
视觉语言模型是偏向于纹理还是形状,我们能否对它们进行引导
今天为大家介绍的是来自Janis Keuper团队的一篇论文。在过去几年里,视觉语言模型(VLMs)极大地改变了计算机视觉模型的格局,为我们开启了一系列激动人心的新应用,从zeroshot图像分类到图像描述再到视觉问题回答。与纯视觉模型不同,它们通过语言提示提供了一种直观的方式来访问视觉内容。这类模型的广泛适用性促使我们去探究它们是否也与人类视觉一致——特别是,它们在多模态融合中是否采纳了人类的视觉偏见,或者它们仅仅继承了纯视觉模型的偏见。一个重要的视觉偏见是纹理与形状之间的偏好,或者说是局部信息对全局信息的主导性。在这篇论文中,作者研究了一系列流行的VLMs中的这种偏见。有趣的是,作者发现VLMs通常比它们的视觉编码器更倾向于形状,这表明通过文本在多模态模型中对视觉偏见进行了一定程度的调整。
DrugAI
2024/04/19
1920
视觉语言模型是偏向于纹理还是形状,我们能否对它们进行引导
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。
新智元
2024/01/18
3400
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。
新智元
2024/01/23
2660
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
构建多模态AI应用的7大工具
多模态人工智能系统可以同时处理多种类型的数据,例如文本、图像和视频。以下列出了我们最喜欢的七个工具。
云云众生s
2024/12/20
2120
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文 80 余篇,谷歌引用 9700 余次。荣获世界人工智能顶会 AAAI 最佳论文奖,位列世界最大学术源代码仓库 Trending Research 第一位。
机器之心
2024/06/27
3460
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
每周AI论文速递(240729-240802)
https://github.com/careywyr/AI-Weekly-Paper
叶子的技术碎碎念
2025/04/08
650
每周AI论文速递(240729-240802)
Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1
纽约大学的谢赛宁教授和Yann LeCun团队最近发布了一种开源的多模态大型语言模型(MLLM),名为“Cambrian-1”。这一研究重点探讨了视觉表征学习对于理解语言的重要性,并提出了一种以视觉为中心的方法来设计多模态模型。该团队全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法,这一举措在学术界和工业界均引起了广泛关注。
deephub
2024/07/01
2110
Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
近年来,大型语言模型(LLMs)通过展示在各种任务上理解、生成和推理文本的非凡能力,彻底改变了自然语言处理(NLP)领域。然而,许多实际应用需要处理不仅仅是文本,例如理解视觉内容或从不同模态合成信息。这导致了多模态LLM的发展,它结合了LLM的语言优势和视觉基础模型,实现了跨模态理解和推理。通过集成文本和视觉信息,这些模型扩展了传统LLM的能力,以解决图像描述、视觉问答和文本到图像生成等任务。
AIGC 先锋科技
2024/12/20
1080
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
计算机视觉领域的基础模型
在计算摄影学的研究和应用中,计算机视觉(Computer Vision)技术扮演了至关重要的角色。计算机视觉不仅帮助我们理解和处理图像和视频数据,还为我们提供了丰富的工具和方法,以提升摄影和图像处理的效果。为了帮助大家更好地理解和应用这些技术,我准备也在星球中介绍更多关于计算机视觉的内容,首先我会引用一些文章,来介绍“计算机视觉领域的基础模型”。
HawkWang
2024/06/26
7450
计算机视觉领域的基础模型
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024/09/13
3080
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
2740
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
如今,多模态大模型(MLLM)已经在视觉理解领域取得了长足进步,其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势,其有效性表明大语言模型(LLM)拥有了大量固有的视觉知识,使得它们能够在指令调整过程中有效地学习和发展视觉理解。
机器之心
2025/02/15
1170
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。
机器之心
2023/10/24
5320
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
最近,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人,联合发表了一项新研究:在虚拟环境中模拟现实世界。
新智元
2024/03/05
2980
给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性。
ShuYini
2024/05/11
9260
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
推荐阅读
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2480
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
660
每日学术速递1.3
2030
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
2430
视觉语言模型是偏向于纹理还是形状,我们能否对它们进行引导
1920
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
3400
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
2660
构建多模态AI应用的7大工具
2120
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
3460
每周AI论文速递(240729-240802)
650
Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1
2110
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
1080
计算机视觉领域的基础模型
7450
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
3080
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.6K0
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
2740
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
1170
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
5320
给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
2980
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
9260
相关推荐
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档