本文转载自“USTC MINE”公众号
项目链接(实时更新最新论文,已获2.1K Stars): https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。
来自中国科学技术大学和腾讯优图实验室的研究者们深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:
论文链接:https://arxiv.org/pdf/2306.13549.pdf
我们将MLLM定义为“由LLM扩展而来的具有接收与推理多模态信息能力的模型”,该类模型相较于热门的单模态LLM具有以下的优势:
该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:
前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。CVPR2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。
多模态指令微调 M-IT
指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:
图1.M-IT格式
多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为“ What is the answer to the question? {question}”,其中和{question}(对应着图1中的)为原有视觉问答任务中的图像和问题。另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。对于多模态指令微调,我们从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:
图2.M-IT总结
多模态上下文学习M-ICL
多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:
图3.M-CoT样例
目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。
多模态思维链 M-CoT
多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。我们从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:
图4. M-CoT总结
目前M-CoT的研究也较少,仍处在初步探索阶段。
LLM辅助的视觉推理LAVR
这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。相比于传统视觉推理模型,这些工作具有以下的好的特性:(1)强大的零/少样本泛化能力。(2)具备新的能力。这些系统能够执行更加复杂的任务,如解读梗图的深层含义。(3)更好的互动性与可控性。我们从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:
图5.LAVR总结
挑战和未来方向
目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,我们总结为以下几点:
上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。
更详细内容请阅读
论文链接:
https://arxiv.org/pdf/2306.13549.pdf
项目链接:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023
[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019