Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >犀牛鸟硬核 | 中科大腾讯联合发布首篇《多模态大语言模型综述》

犀牛鸟硬核 | 中科大腾讯联合发布首篇《多模态大语言模型综述》

作者头像
腾讯高校合作
发布于 2023-08-08 00:57:15
发布于 2023-08-08 00:57:15
6930
举报
文章被收录于专栏:腾讯高校合作腾讯高校合作

本文转载自“USTC MINE”公众号

项目链接(实时更新最新论文,已获2.1K Stars): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。

来自中国科学技术大学和腾讯优图实验室的研究者们深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:

论文链接:https://arxiv.org/pdf/2306.13549.pdf

  • 项目链接(实时更新最新论文,已获2.1K Stars): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

我们将MLLM定义为“由LLM扩展而来的具有接收与推理多模态信息能力的模型”,该类模型相较于热门的单模态LLM具有以下的优势:

  • 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。
  • 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。
  • 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。

该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:

  • 多模态指令微调(Multimodal Instruction Tuning,M-IT)
  • 多模态上下文学习(Multimodal In-Context Learning,M-ICL)
  • 多模态思维链(Multimodal Chain of Thought,M-CoT)
  • LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)

前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。CVPR2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。

多模态指令微调 M-IT

指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:

图1.M-IT格式

多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为“ What is the answer to the question? {question}”,其中和{question}(对应着图1中的)为原有视觉问答任务中的图像和问题。另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。对于多模态指令微调,我们从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:

图2.M-IT总结

多模态上下文学习M-ICL

多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。我们从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:

图4. M-CoT总结

目前M-CoT的研究也较少,仍处在初步探索阶段。

LLM辅助的视觉推理LAVR

这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。相比于传统视觉推理模型,这些工作具有以下的好的特性:(1)强大的零/少样本泛化能力。(2)具备新的能力。这些系统能够执行更加复杂的任务,如解读梗图的深层含义。(3)更好的互动性与可控性。我们从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:

图5.LAVR总结

挑战和未来方向

目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,我们总结为以下几点:

  • 现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。
  • MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。
  • MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。
  • 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。
  • 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。

上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。

更详细内容请阅读

论文链接:

https://arxiv.org/pdf/2306.13549.pdf

项目链接:

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯高校合作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新
近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。
新智元
2023/08/07
1.7K0
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新
腾讯厦大发布多模态大模型评测排行榜
项目链接(已获1.8K Stars):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
CV君
2023/08/31
7090
腾讯厦大发布多模态大模型评测排行榜
「多模态LLM」最新介绍!数据、论文集直接打包带走
进展跟踪链接(Awesome-MLLM,实时更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
新智元
2023/08/05
4890
「多模态LLM」最新介绍!数据、论文集直接打包带走
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.5K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
优秀的多模态大模型(LLM)资源库
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业。笔者认为,如果说ChatGPT引领了AI革命的开端,那么多模态大模型一定代表着AI应用的未来。
山行AI
2023/06/26
2K0
优秀的多模态大模型(LLM)资源库
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.5K0
【论文解读】多模态大模型综述
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。
新智元
2023/08/07
1K0
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题
现在,其「天工」大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。
量子位
2023/09/08
4150
天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题
开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星
不过,这类模型的性能究竟要如何衡量,业界却一直众说纷纭,没有一个覆盖面足够广泛的评价标准。
量子位
2023/08/05
3K0
开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要。拓展的关键在于进行模态对齐,即学习将剩余模态以相同语义映射到预训练LLM特征空间的对应语言模态。
AIGC 先锋科技
2024/08/30
2830
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2023/07/26
2770
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
在本文中,我们首次尝试使用仅基于语言的GPT-4生成多模态语言-图像指令跟随(instruction following)数据。通过对这些生成数据进行指令调整,我们介绍了LLaVA:Large Language and Vision Assistant,这是一个端到端训练的大型多模态模型,将视觉编码器与LLM连接起来,用于通用目的的视觉和自然语言理解。
唐国梁Tommy
2023/09/01
3K0
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。
AIGC 先锋科技
2024/07/08
1710
​ LaVy 与 LaVy-Bench  |  推进越南语多模态语言理解研究与基准测试 !
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
自GPT-3首次提出了In-Context Learning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-Context Learning,是一种让大型语言模型(LLMs)通过少量标注样本在特定任务上进行学习的方法。这种方法的核心思想是,通过设计任务相关的指令形成提示模板,利用少量标注样本作为提示,引导模型在新的测试数据上生成预测结果。
汀丶人工智能
2024/06/15
2.5K0
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6690
2024年6月上半月30篇大语言模型的论文推荐
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans 代码: https://github.com/open-mmlab/Multimodal-GPT (包含代码、数据、demo) 作者:OpenMMLab
zenRRan
2023/08/22
5660
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:
CV君
2023/11/01
6780
幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker
​解密Prompt系列33. LLM之图表理解任务-多模态篇
上一章我们介绍了纯文本模态的表格理解任务,这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下,图片和文字模态哪种表格模型理解的效果更好更好,再说下和表格相关的图表理解任务的微调方案。
风雨中的小七
2024/07/04
8830
​解密Prompt系列33. LLM之图表理解任务-多模态篇
Cantor(领唱员):厦门大学提出多模态思维链新架构
本文分享论文Cantor: Inspiring Multimodal Chain-of-Thought of MLLM,提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。
CV君
2024/05/20
2530
Cantor(领唱员):厦门大学提出多模态思维链新架构
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。
机器之心
2023/08/08
4980
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
推荐阅读
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新
1.7K0
腾讯厦大发布多模态大模型评测排行榜
7090
「多模态LLM」最新介绍!数据、论文集直接打包带走
4890
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.5K0
优秀的多模态大模型(LLM)资源库
2K0
【论文解读】多模态大模型综述
6.5K0
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
1K0
天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题
4150
开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星
3K0
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
2830
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
2770
【论文解读】LLaVA 多模态大模型,微软首创用GPT-4生成多模态指令数据集进行指令微调
3K0
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
1710
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
2.5K0
2024年6月上半月30篇大语言模型的论文推荐
6690
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
5660
幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker
6780
​解密Prompt系列33. LLM之图表理解任务-多模态篇
8830
Cantor(领唱员):厦门大学提出多模态思维链新架构
2530
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
4980
相关推荐
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档