AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。然而,庞大的视觉 token(vision token)量显著增加了 LMMs 的计算复杂度和推理延迟,尤其在高分辨率图像或视频处理的场景下,效率问题愈加突出。因此,提高多模态大模型的计算效率成为实现低延时实时交互的核心挑战之一。
为了应对这一挑战,中国科学院计算技术研究所自然语言处理团队创新性的提出了高效多模态大模型 ——LLaVA-Mini。通过对 LMMs 中视觉 tokens 处理过程的可解释性分析,LLaVA-Mini 将每张图像所需的视觉 tokens 压缩至 1 个,并在确保视觉理解能力的同时显著提升了图像和视频理解的效率,包括:计算效率提升(FLOPs 减少 77%)、响应时延降低(响应延时降至 40 毫秒)、显存占用减少(从 360 MB / 图像降至 0.6MB / 图像,支持 24GB GPU 上进行长达 3 小时的视频处理)。
论文题目:LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
论文链接:https://arxiv.org/abs/2501.03895
开源代码:https://github.com/ictnlp/LLaVA-Mini
模型下载:https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b
多模态大模型如何理解视觉 Tokens?
为了在减少视觉 token 的同时保持视觉理解能力,研究者首先分析了 LMMs 如何处理和理解大量视觉 token。分析集中在 LLaVA 架构,特别从注意力机制的角度探讨了视觉 token 的作用及其数量对 LMMs 性能的影响。具体而言,实验评估了视觉 token 在 LMMs 不同层中的重要性,涵盖了多种 LMMs,以识别不同规模和训练数据集的模型之间的共性。
视觉 token 在 LMMs 不同层中获取的注意力权重
LMMs 中不同层的注意力可视化
分析发现:
1. 视觉 token 在前几层中的重要性较高:在 LMMs 的前几层,视觉 token 获得了更多的注意力,但随着层数增加,注意力迅速转向指令 token(文本),超过 80% 的注意力集中在指令 token 上。这表明,视觉 token 主要在前层发挥作用,文本 token 通过注意力机制从视觉 token 中获取视觉信息,而后续层则依赖于已经融合视觉信息的指令 token 来生成回复。
2. 大部分视觉 token 在前几层中被关注:如上图注意力可视化所示,早期层中几乎所有视觉 token 都受到均匀关注,而在后期层,模型则集中注意力于少数几个视觉 token。这表明,直接减少所有层中的视觉 token 数量不可避免地会导致视觉信息的丢失。
更多分析请参考论文。通过预先分析,研究者发现视觉 token 在 LMMs 的早期层中起着至关重要的作用,在这一阶段,文本 token 通过关注视觉 token 融合视觉信息。这一发现为 LLaVA-Mini 极限压缩视觉 token 的策略提供了重要的指导。
LLaVA-Mini 介绍
LLaVA-Mini 使用视觉编码器将图像编码为若干视觉 token。为了提升效率,LLaVA-Mini 通过压缩模块大幅减少输入 LLM 底座的视觉 token 数量。为了在压缩过程中保留视觉信息,基于先前的研究发现,视觉 token 在早期层中对于融合视觉信息至关重要,LLaVA-Mini 在 LLM 底座之前引入了模态预融合模块,将视觉信息融入文本 token 中,从而确保视觉理解能力。
视觉 token 压缩
视觉 token 压缩效果
领取专属 10元无门槛券
私享最新 技术干货