Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA

媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA

作者头像
机器之心
发布于 2023-10-10 06:24:16
发布于 2023-10-10 06:24:16
4970
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:蛋酱、小舟

多模态大模型落地的风,最终还是刮了起来。

十几天前,OpenAI 为 ChatGPT 添加了图像识别功能,允许用户使用上传一张或多张图像配合进行对话。从 OpenAI 自己公开的简短文档,我们得知, ChatGPT 识图功能的背后是一个名为 GPT-4V 的新款大模型。

实际上,这一能力在半年前 GPT-4 发布之时就已存在,但一直未对普通用户公开。在 AI 领域,多模态大模型 早已成为公认的趋势,也被认为是通用 AI 助手的关键模块。

鉴于 OpenAI 对「闭源」的坚持,很多研究者也率先一步推出了自己的多模态大模型研究成果。比如两大代表作「LLaVA」和「MiniGPT-4」,都在自然指令跟踪和视觉推理能力方面展示了令人印象深刻的结果。

今年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。

如今,这一成果迎来重磅升级:LLaVA-1.5 已正式发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

  • 论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf
  • Demo 地址:https://llava.hliu.cc/

仅使用 120 万公开数据,LLaVA-1.5 在单个 8-A100 节点上用不到 1 天的时间就完成了训练。

在论文中,研究者介绍了两项简单的改进:一个 MLP 跨模态连接器,以及合并 VQA 等学术任务相关数据。与 LLaVA 一起使用时,这两项改进带来了更好的多模态理解能力。

相比于 InstructBLIP 或 Qwen-VL 在数亿甚至数十亿的图像文本配对数据上训练专门设计的视觉重采样器,LLaVA 使用了最简单的架构设计,只需要在 600K 个图像 - 文本对上训练一个简单的全连接投影层。

和 GPT-4V 比,能不能打?

在读论文之前,我们先来看看 LLaVA-1.5 的识别能力如何,能不能与 GPT-4V 相较量。

命题一:将杂货转换为 JSON

指令:需要识别所有水果(仅水果),然后为每种水果创建一个具有名称属性和营养属性的对象,营养属性包括估计热量、碳水化合物、脂肪和蛋白质属性。

LLaVA-1.5 的回答结果:

GPT-4V 的回答结果:

命题二:从简化的草图识别电影名称

指令:这个图讲的是哪部电影?注:我改了角色的名字,让识别变得更难。

LLaVA-1.5 的回答结果:

GPT-4V 的回答结果:

论文细节

LLaVA 在视觉推理方面表现出值得称赞的能力,在现实生活中的视觉指令任务的各种基准上超越了多个最新模型,而仅在通常需要简短答案的学术基准上有所欠缺。研究团队认为后者归因于 LLaVA 没有像其他方法那样在大规模数据上进行预训练。

具体来说,该研究首先在下表 1 中选择的三个数据集上分析了扩展数据、模型和输入图像分辨率的影响;然后在表 2 中的 12 个不同基准上进行比较实验。实验结果表明,LLaVA 架构对于视觉指令调整而言功能强大且数据高效,并且使用比所有其他方法少得多的计算和训练数据实现了最佳性能。

响应格式 prompt

该研究发现:InstructBLIP 等方法无法在短格式和长格式 VQA 之间取得平衡主要有两点原因:

首先,给 LLM 的 prompt 在响应格式上不明确。例如,「Q:{问题} A:{答案} 」这样的 prompt 并不能清楚地阐明所需的输出格式。即使对于自然的视觉对话,也可能使 LLM 过度适合给出简短的答案。

其次,没有对 LLM 进行微调。例如,InstructBLIP 需要 Qformer 的视觉输出 token 来控制 LLM 的输出长度(长格式 / 短格式),但由于其容量有限,Qformer 可能缺乏正确执行此操作的能力。

为了解决这个问题,该研究提出使用一个明确指定输出格式的「响应格式 prompt」,例如当需要模型给出简短回答时,在 VQA 问题的末尾加一句:「使用单个词语或短语回答问题」。

该研究通过实验表明:当 LLM 使用此类 prompt 进行微调时,LLaVA 能够根据用户的指令适当调整输出格式,并且不需要使用 ChatGPT 对 VQA 数据进行额外处理。

此外,该研究还发现,与原始模型相比,通过双层 MLP 提高视觉 - 语言连接器的表征能力可以提高 LLaVA 的多模态能力。并且,该研究还面向学术任务扩展了数据,包括额外的面向学术任务的 VQA 数据集,用于 VQA、OCR 和区域级感知,以增强模型的多模态能力。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考链接:

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?
新智元
2023/10/08
3.5K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。
机器之心
2024/02/06
4640
多模态LLM多到看不过来?先看这26个SOTA模型吧
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。
新智元
2024/01/04
1.2K0
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。
机器之心
2024/04/12
1420
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2630
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.5K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,如下排行榜所示。
机器之心
2023/12/01
6280
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。
新智元
2024/01/18
3560
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
---- 新智元报道   编辑:桃子 拉燕 【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线,就已经被超越了。 近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个新成员:InstructBLIP 据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。 比如
新智元
2023/05/15
5660
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3740
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。
新智元
2023/11/02
3680
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
4B规模下能力极高的LMMs。 值得注意的是,作者的Imp-3B模型在所有现有相似规模的轻量级LMMs中表现稳定地超越,甚至超过了13B规模下的最先进LMMs。 通过低比特量化技术和分辨率降低技术,作者的Imp模型可以部署在高通骁龙8Gen3移动芯片上,具有高达约13个 Token /秒的高推理速度。
AIGC 先锋科技
2024/07/08
3220
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来,大型多模态模型 (LMM) 引起了研究界越来越多的兴趣,许多工作致力于构建多模态 GPT-4。
机器之心
2023/10/24
4100
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
多模态大型语言模型(MLLMs)在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型(LLMs)作为基础架构来处理连接的视觉和语言嵌入。以LLaVA [3]作为代表作品,它采用低分辨率(, 等)图像作为输入,并通过MLP投影器将视觉嵌入与文本模态对齐,然后进行指令调整。LLaVA的架构已被后续工作广泛采用,并已应用于各种视觉任务,包括检测、分割和视频理解。
AIGC 先锋科技
2024/07/08
6470
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
最近,来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA,为alignment before projection提供了新颖的解决方案。
新智元
2023/11/24
6320
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使模型能够吸收外部提供的指示,并促进在多个领域内的强大泛化能力。 在这些进展之后,计算机视觉界开始研究将这些模型扩展到视觉和语言的情境中,从而生成多模态大型语言模型(MLLMs)。在这方面,通过视觉到语言的 Adapter 将视觉特征融合到LLM的主干中,引起了显著的性能提升,使得对需要精心设计的视觉描述的视觉和语言任务能够广泛泛化。
AIGC 先锋科技
2024/07/08
3990
视觉的跨界 Wiki-LLaVA  |  lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。
新智元
2024/02/06
2.7K0
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。
新智元
2024/01/23
2770
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
随着大型语言模型(LLM)展现出强大的性能,其在解决数学问题方面的应用变得越来越流行(Toshniwal等人,2024年;Wang等人,2023年;Gou等人,2023年;Wang等人,2023a年)。先前的研究表明,人类在没有视觉辅助的情况下解决几何问题时,准确性会显著降低(Chen等人,2021年)。因此,将图像中的视觉信息整合进来对于准确解决这类数学问题至关重要,这需要多模态大型语言模型(MLLM)的视觉感知能力。然而,即使是现在可用的最好的MLLM,Gemini 在几何能力方面仍显著落后于人类表现。因此,研究行人正急于探索提升MLLM几何能力的方法。
AIGC 先锋科技
2024/07/08
8750
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
LLaVA-Read 在多模态任务中的高性能表现 !
指令微调已显示出在未见任务中的显著泛化能力,这促使大型语言模型(如GPT-4[3])的采用不断增加。近期,多模态语言模型从视觉指令微调中受益,在现实世界应用中取得了重大成功。这些模型利用了如CLIP-ViT的视觉编码器,为LLM赋予了图像理解能力。然而,在理解图像中的文本信息方面仍存在挑战,这很可能是由于训练数据集中自然图像的普遍性,正如所强调的。为了解决这个问题,[14]提出通过引入带噪声的光学字符识别(OCR)标注来改进端到端视觉指令微调模型,从而提高视觉与语言的协同对齐。此外,低分辨率视觉编码器也带来了挑战,因为至少需要九个像素才能识别一个单词。先前的工作探索了各种方法来提高编码器的分辨率,在多个下游任务中取得了显著的性能提升。然而,值得注意的是,高分辨率编码器通常需要更多资源进行图像编码,并产生更多的视觉标记供语言模型处理,这导致训练和推理过程中的低效率。提出了视觉标记合并和更智能的架构设计等方法来减轻这些挑战并提升模型性能。
AIGC 先锋科技
2024/08/06
2640
LLaVA-Read 在多模态任务中的高性能表现 !
推荐阅读
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
3.5K0
多模态LLM多到看不过来?先看这26个SOTA模型吧
4640
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
1.2K0
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
1420
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2630
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.5K0
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
6280
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
3560
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
5660
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3740
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
3680
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
3220
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
4100
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
6470
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
6320
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
3990
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
2.7K0
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
2770
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
8750
LLaVA-Read 在多模态任务中的高性能表现 !
2640
相关推荐
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档