

大规模语言模型(LLMs)和多模态大规模语言模型(MLLMs)以其在复杂推理和语言理解方面的卓越能力在全球范围内引起了轰动。 尽管有关越南大型语言模型的研究成果层出不穷,但多模态方面高质量资源的缺乏限制了越南MLLMs的发展。在本文中,作者首次通过引入LaVy,这是一个先进的越南MLLM,来解决这一问题。同时,作者还介绍了专门用于评估MLLMs在越南视觉语言任务上理解能力的LaVy-Bench基准。 关注公众号,领取代码。
1 Introduction
近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。
尽管在发展越南语LLM方面取得了显著进展,但高质量多模态资源的缺乏阻碍了越南语MLLM的发展。多样化和良好标注的数据集对于训练和评估MLLM至关重要,因为它们依赖于视觉和文本信息的整合,以有效地执行多模态任务。
为了解决这一限制,促进越南语多模态语言理解的研究,作者推出了LaVy,这是越南语首个MLLM,并在越南语视觉语言任务上取得了最先进的表现。LaVy旨在利用越南数据中丰富的视觉和语言信息,使其能够以改进的性能处理各种多模态任务。作者的模型在各项任务上大幅超越了多语言 Baseline mBLIP [1]。通过开发LaVy,作者旨在弥合越南语LLM与MLLM之间的差距,为研究行人和实践者提供了一个强大的工具,以探索越南语背景下语言与视觉的交集。
此外,为了促进越南语MLLM的评价和比较,作者提出了LaVy-Bench基准。这个基准包括一个开放的VQA任务和一个野外测试集,专门设计用于评估MLLM在越南语和野外图像中的视觉语言理解和生成能力。通过建立标准化评估框架,作者旨在推动越南语MLLM的发展和基准测试,促进研究社区内的创新和合作。
在本文中,作者介绍了LaVy和LaVy-Bench基准,作为越南语多模态语言理解领域的重大贡献。作者提供了LaVy架构、数据整理和训练过程的详细描述。此外,作者还介绍了LaVy-Bench基准,讨论了其设计原则、任务组成和评估指标。通过广泛的实验和分析,作者证明了LaVy的有效性以及LaVy-Bench基准在推进越南语MLLM研究中的实用性。
Large Language Model
近期在大型语言模型(LLMs)方面的进展展示了在各种自然语言处理任务中,包括对话、创意写作和问题解决等方面的卓越能力。诸如LLaMA [21, 22]、Mistral [19] 和 Gemma [23] 等模型利用了可扩展的基于Transformer的架构[20]和大规模数据,成为了通用推理任务的基础模型。这些模型展示了令人印象深刻的性能,并在该领域设定了新的基准。
在LLMs的趋势下,一些越南语语言模型,如PhoGPT [22]、Vistral [20],在越南语LLM基准测试和NLP任务中表现出色。
见证了GPT-4 和Gemini Pro Vision 在视觉语言任务中的卓越表现,近期研究一直专注于开发多模态大型语言模型(MLLMs),以实现在不同模态间的统一理解和推理,这建立在大型语言模型(LLMs)的成功基础之上。已经提出了各种方法来将来自多个模态的信息集成到预训练的LLM架构中。例如,Flamingo 和BLIP-2 采用了不同的技术,通过门控注意力或Q-former将视觉标记与冻结的LLMs融合。受到指令调优有效性的启发,LLaVA 和MiniGPT-4 通过视觉指令调优将视觉输入与LLMs对齐,展示了令人印象深刻的结果。另一条活跃的研究路线是研究高效的MLLMs,产生了如Bunny 这样的轻量级模型家族。同时,近期的研究工作在低资源语言的视觉语言任务开发方面开创了先河,例如Peacock。
3.1 节的开始。
作者的模型采用了LlaVA架构,主要包括以下三个组件:
训练过程分为2步:
以下是4实验部分的开头。
作者使用Vistral 7B作为LLM的 Backbone 网络和CLIP大型视觉编码器。LaVy的训练过程分为两个阶段。在第一阶段,模型使用708k个标题的数据集进行预训练,共1个周期,全局批处理大小为64,学习率为1e-3。在这个阶段,除了MLP层之外,所有模型参数都被冻结。此外,作者不随机打乱数据,而是让模型从非精细数据学习到精细数据。
第二阶段涉及使用指令数据集对模型进行微调。这个阶段同样持续1个周期,全局批处理大小为32,学习率为2e-5。在这个阶段,只有新引入的LoRA(低秩适应)参数是可训练的。
此外,在评估过程中,作者应用贪心解码来生成所有模型的响应 Lin和Chen(2023)。
作者构建了LaVy-Bench来评估模型对越南视觉语言的理解能力。
作者评估了模型在OpenViVQA Nguyen等人(2023)开发集上的零样本视觉问答(VQA)性能,该开发集包含3,505个样本。这个数据集挑战了模型对越南图像与自然语言之间关系的理解。此外,作者提出了一种新的自动评估指标,以取代如BLEU Papineni等人(2002年)等旧指标,后者不能准确反映模型在VQA任务中的能力。作者的指标受到LLM-as-a-Judge Zheng等人(2023年)的启发,它利用Gemini Pro来验证问题-答案对生成的响应的准确性。在表1中,可以看出LaVy的零样本VQA性能(33.5%)优于mBLIP-Bloomz-7B(27.9%)和mBLIP-mT0-XL-5B(20.0%)。然而,OpenViVQA数据集包含多种在作者的训练数据集中未出现的问题类型,例如OCR,这使得这个测试集对作者的模型来说尤其具有挑战性,更不用说作者的训练说明仅包括8,000张越南语抓取图像的描述了。

为了进一步评估模型的理解能力,作者遵循LLaVA基准(野外环境)Liu等人(2023年)的评估方法,重新收集了一组24张不同类型的图片和60个问题,分为3种主要类型:复杂推理、详细描述和对话。所收集的图片和手工制作的问题旨在在各个方面多样化测试集:文化、种族、图像类型...与表2中的mBLIP Baseline 相比,LaVy在所有类型的问题上都明显表现更好:对话(+30%)、详细描述(+64%)和复杂推理(+49%)。总体而言,作者的模型在Gemini Pro上的得分为60.6%。表3中描绘了一些定性测试案例。


作者的模型仍有一些局限性:
在本论文中,作者介绍了LaVy,这是一个开创性的最先进的越南多模态大型语言模型(MLLM),旨在解决越南语在多模态方面高质量资源缺乏的问题。LaVy在越南MLLM的发展中迈出了重要一步,使得在涉及视觉和文本信息的任务中能够进行复杂的推理和语言理解。
此外,作者还介绍了LaVy-Bench,这是一个专为评估MLLM在越南视觉语言任务上性能而设计的全面基准。这个基准提供了一个标准化的平台,用于评估越南MLLM的能力,促进了这些模型的比较和进步。作者的模型在与mBLIP Baseline 在基准测试集上的比较中,也证明了其SOTA性能。
[1].LaVy: Vietnamese Multimodal Large Language Model.