犀牛鸟硬核 | 中科大腾讯联合发布首篇《多模态大语言模型综述》

腾讯高校合作

发布于 2023-08-08 08:57:15

8770

本文转载自“USTC MINE”公众号

项目链接(实时更新最新论文，已获2.1K Stars)： https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

近来，多模态大语言模型(Multimodal Large Language Model，MLLM)受到广泛关注，成为一个新兴的研究热点。MLLM通常以大语言模型(Large Language Model，LLM)为基础，融入其它非文本的模态信息，完成各种多模态任务。相比于常规的多模态模型，MLLM涌现出一些令人惊叹的新能力，例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。

来自中国科学技术大学和腾讯优图实验室的研究者们深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》：

论文链接：https://arxiv.org/pdf/2306.13549.pdf

项目链接(实时更新最新论文，已获2.1K Stars)： https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

我们将MLLM定义为“由LLM扩展而来的具有接收与推理多模态信息能力的模型”，该类模型相较于热门的单模态LLM具有以下的优势:

更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息，这些信息通常是互为补充、协同作用的。因此，使用多模态信息一般可以更好地认知与完成任务。
更加强大与用户友好的接口。通过支持多模态输入，用户可以通过更加灵活的方式输入与传达信息。
更广泛的任务支持。LLM通常只能完成纯文本相关的任务，而MLLM通过多模态可以额外完成更多任务，如图片描述和视觉知识问答等。

该综述主要围绕MLLM的三个关键技术以及一个应用展开，包括:

多模态指令微调(Multimodal Instruction Tuning，M-IT)
多模态上下文学习(Multimodal In-Context Learning，M-ICL)
多模态思维链(Multimodal Chain of Thought，M-CoT)
LLM辅助的视觉推理(LLM-Aided Visual Reasoning，LAVR)

前三项技术构成了MLLM的基础，而最后一个是以LLM为核心的多模态系统。三项技术作为LLM的代表性能力在NLP领域已有广泛研究，但扩展到多模态领域时会出现许多新的特点与挑战。LLM辅助的视觉推理系统涉及几种典型的设计思路，即将LLM作为控制器、决策器或语义修饰器。CVPR2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览，更丰富的内容请参考原文。

多模态指令微调 M-IT

指令（Instruction）指的是对任务的描述，多模态指令微调是一种通过指令格式的数据（Instruction-formatted data）来微调预训练的MLLM的技术。通过该技术，MLLM可以跟随新的指令泛化到未见过的任务上，提升zero-shot性能。多模态的指令格式如下所示:

图1.M-IT格式

多模态指令数据的基本形式可以概括为(指令，多模态输入，回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。前者指的是人工为每种任务设计一系列指令模板，比如对于传统的视觉问答任务，指令可以设计为“ What is the answer to the question? {question}”，其中和{question}（对应着图1中的）为原有视觉问答任务中的图像和问题。另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。对于多模态指令微调，我们从数据、模态桥接（Modality Bridging）和评测三个方面对现有工作进行了总结，如下图所示:

图2.M-IT总结

多模态上下文学习M-ICL

多模态上下文学习指的是给定少量样例作为Prompt输入，激发模型潜在的能力并规范化模型的输出。其样例如下图所示:

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。LLM通常不需要专门的训练即可拥有ICL能力，但现阶段的MLLM还比较依赖训练，并且仍缺乏对样例选择和样例顺序等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐步推理（给出中间的推理步骤）来获得多模态任务的答案。相比于直接输出答案，M-CoT在较为复杂的推理任务上能够取得更好的表现。我们从模态桥接（Modality Bridging）、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究：

图4. M-CoT总结

目前M-CoT的研究也较少，仍处在初步探索阶段。

LLM辅助的视觉推理LAVR

这类工作利用LLM强大的内嵌知识与能力以及其他工具，设计各种视觉推理系统。相比于传统视觉推理模型，这些工作具有以下的好的特性:（1）强大的零/少样本泛化能力。（2）具备新的能力。这些系统能够执行更加复杂的任务，如解读梗图的深层含义。（3）更好的互动性与可控性。我们从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:

图5.LAVR总结

挑战和未来方向

目前来看，MLLM的发展还处于起步阶段，无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题，我们总结为以下几点:

现有MLLM的感知能力受限，导致获取的视觉信息不完整或者有误，并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。
MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题，模型有时仍会因为推理链条断裂导致输出错误答案。
MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后，即使是较为简单的指令，部分MLLM仍然无法输出预期的答案。
物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符，出现了编造物体等现象，影响了MLLM的可靠性。
高效参数训练。由于MLLM的模型容量很大，在计算资源受限的条件下，高效参数训练有望能够解锁更多MLLM的能力。

上述前四点问题在与本文同系列的论文（https://arxiv.org/pdf/2306.13394.pdf）中有非常详细的评测和讨论，欢迎大家阅读。除了上述问题外，MLLM在具体的子方向上也都只进行了初步探索，比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。

更详细内容请阅读

论文链接：

https://arxiv.org/pdf/2306.13549.pdf

项目链接：

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-07-03，如有侵权请联系 cloudcommunity@tencent.com 删除

工作