Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >xGen-MM(BLIP-3), 一种开放大型多模态模型 !

xGen-MM(BLIP-3), 一种开放大型多模态模型 !

作者头像
未来先知
发布于 2024-09-02 04:56:41
发布于 2024-09-02 04:56:41
5150
举报
文章被收录于专栏:未来先知未来先知

本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架包括精心策划的数据集、训练配方、模型架构以及一系列LMMs。xGen-MM,即xGen-多模态,扩展了Salesforce xGen在基础AI模型上的倡议。 作者对这些模型进行了广泛的任务评估,包括单图像和多图像基准测试。 作者预训练的基模型展现了强大的上下文学习能力,而指令调整的模型在类似模型大小的开源LMMs中展示了有竞争力的性能。 此外,作者还引入了一个带有DPO的安全调整模型,旨在减轻幻觉等有害行为并提高安全性。作者开源了模型、策划的大规模数据集以及微调代码库,以促进LMM研究的进一步发展。

1 Introduction

大型多模态模型(LMMs)因其潜在的应用和新兴能力而受到广泛关注。最近,专有模型[2-5]和开源LMMs[6, 1, 7-11]的进展突显了这一领域的快速进步和日益增长的兴趣。然而,尽管取得了这些进步,开源模型与专有模型之间在开放权重、训练配方和策划数据集的获取方面仍存在差距。这些限制阻碍了开源社区复制、理解和改进LMMs。

近期的工作表明,大规模和高质量的数据对于训练稳健的LMMs至关重要[8-12]。BLIP-2[1]是探索LMMs的先驱之一,它利用合成数据在当时取得了令人印象深刻的结果(图1(a))。然而,BLIP-2使用的数据在规模、质量和多样性方面不足以与现今更现代的LMMs相匹敌。此外,BLIP-2采用了复杂的Q-Former[1]架构来桥接视觉和语言模态,并附带一系列复杂的训练目标(ITM、ITC和ITG损失),这些都为更大规模的训练设置了障碍。而且,BLIP-2只支持单图像输入,而交错的多模态数据格式才是最自然的多模态数据形式[13]。

为了应对这些挑战,作者推出了xGen-MM(BLIP-3)(图1(b)),这是一个新的框架,旨在通过利用交错多模态数据集、策划的标题数据集以及其他公开可用的数据集[14-17]来扩大LMM训练。xGen-MM,即xGen-多模态,进一步扩展了作者之前的生成式AI倡议及其对应的文本xGen[18]、代码生成codeGen[19, 20]、函数调用APIGen[21]等基础模型。在xGen-MM(BLIP-3)中,如图2所示,作者通过用更可扩展的视觉令牌采样器(特别是感知器重采样器[22])替换Q-Former[1]并简化训练目标,专注于多模态上下文中文本令牌的自回归损失,从而简化了模型架构。作者的主要重点是数据集策划和扩大训练数据。最近,作者的BLIP-3团队推出了两个大规模、高质量的数据集:MINT-1T[12],一个万亿令牌规模的交错数据集;以及BLIP3-KALE,一个知识增强的高质量密集标题数据集。在本技术报告中,作者介绍了两个额外的专业数据集:BLIP3-OCR-200M,一个带有密集OCR注释的大规模数据集;以及BLIP3-GROUNDING-50M,一个大规模的视觉定位数据集。

除了这些数据集,作者还致力于开源在这项工作中开发的一系列模型,包括基础模型、指令调整模型和DPO模型。随着模型发布,作者还提供了易于在自定义数据集上微调基础模型的代码。通过公开这些资源,作者旨在使LMM的研究和开发更加易于社区接触,并鼓励研究人员和实践者使用作者的模型和数据集来理解和进一步探索LMMs的潜力和新兴能力。

2 Related Work

近年来,在大型多模态模型(LMMs)中进行了许多创新性研究,主要探讨了两种主要架构方法:交叉注意力(cross-attention)式和仅解码器(decoder-only)式。交叉注意力方法的代表模型有Flamingo [22, 23]和Llama 3.1 [5],它通过复杂关注机制将视觉和语言模态集成在一起,实现深度多模态理解。另一种方法是仅解码器架构(decoder-only architecture),例如作者采用的xGen-MM(BLIP-3),它使用轻量级的连接器将预训练语言模型与视觉输入连接起来,简单化整合过程,同时保持强大的多模态能力。这种架构的有效性在模型如MM1 [9],VILA [10],LLAVA [8],phi3-vision [37],和Otter [38]中得到体现。

LMMs的训练方法通常遵循两种策略之一。第一种策略采用轻量级预训练程序,并严重依赖视觉指导调优,如LLAVA系列 [8, 29]。已经在各种任务上进行了大量研究,以创建有效指导调优数据 。第二种策略涉及在大型规模、多样化的数据集上进行广泛预训练,然后进行视觉指导微调。这种方法由模型如MM1和Idefics2 [11]采用,将模型注入大量知识,然后微调以适应人类的交互和安全标准。尽管MM1 [9]提供了广泛裁剪和关于优化LMMs的研究所需,但对实践者采用模型和数据集的供应有限(例如,MM1模型和数据集是有限的源代码)。而Idefics2 [11] 是一项更近期的开源工作,它公开发布了一系列模型,以及详细的训练策略和数据食谱,但Idefics2 主要在实验中使用现有数据集,而没有贡献新的数据集。

在这项工作中,作者提出了xGen-MM(BLIP-3)。与先前的作品不同,xGen-MM(BLIP-3)是一个开放的模型系列,数据食谱,微调代码和两个大规模的基础多模态数据集,作者希望能促进和推动未来在这一领域的研究。

3 Model Architecture

如图2所示,xGen-MM(BLIP-3)框架采用了一种体系结构,包括一个基于自注意力机制的视觉标记[44, 45]和感知器重采样器[22]来降采样图像嵌入,以及一个预训练的大型语言模型(phi3-mini[37])。模型输入可以是来自作者多元化的多模态数据源的任意格式多模态文本和视觉标记。

任意分辨率视觉标记采样。如最近[46, 47, 48]在LMMs中证明有效的动态高分辨率图像(即, "任意分辨率")编码策略,作者在微调和后训练阶段采用图像分块编码的方式实现更高分辨率的图像理解。分块编码通过将单个图像拆分为多个块并分别编码来尽可能保留原始图像的分辨率。遵循惯例,作者将编码过的图像块与缩小后的原始图像(提供全局信息)连接在一起。

在VL连接器中,作者使用感知器重采样器降采样视觉标记。由于采用了任意分辨率的图像编码策略,作者可以独立地对每个图像块(包括缩小后的原始图像)进行降采样。降采样后的视觉标记被连接在一起,然后发送到LLM。通过作者在VL连接器中的降采样,作者可以将视觉标记的序列长度减少到感知器重采样器的倍数。

4 Training

预训练。在预训练过程中,作者的目标是预测在作者预训练的数据集混合上接下来的一对文本 Token 。总的来说,预训练得到的的基础模型xGen-MM-Phi3-mini-base-r是从组合数据集中预训练了大约100万亿个多模态 Token ,并且作者的预训练分辨率为384x384像素,与SigLIP [45]相匹配。

监督优化(SFT)。进一步在指令遵循的示例上 fine-tune作者的预训练模型,使它们更好地理解并遵循用户 Query 。在 fine-tuning 阶段,作者使用一组公开可用的指令遵循数据集 [11, 29, 49]。作者采用任意分辨率的视觉 token 采样策略,以允许更好地理解高分辨率的图像,如富含文本的文档数据。在下一阶段 fine-tuning 的部分将介绍 fine-tuning 阶段的详细技术细节。

多图像和单图像混合监督优化。在指令 fine-tuned 模型上进行第二阶段 fine-tuning,该模型是在多图像和单图像指令遵循样本文本的混合中得到的。这个第二阶段 fine-tuning 的目标是增强模型理解和处理交错图像-文本输入的能力,这对于多模态情境学习、多图像问答等许多实际应用非常有帮助。在进行多图像 fine-tuning 时,作者也采用与第一阶段 SFT 相同的任意分辨率的视觉 token 采样策略。

后训练。最后,作者进行两阶段后训练,分别在增强模型有益特征的同时减少有害特征,如歧义和毒性。作者首先执行直接偏好优化 (DPO [50]),以增强模型的有益性和视觉忠实度。然后执行安全性 fine-tuning,以增强模型的安全性。作者在作者的后训练之后定量性地展示了模型有害性和有益性的 Pareto 收益。

5 Data

第五部分数据的开端。

Pre-training Data Recipe

如图3所示,在xGen-MM(BLIP-3)中,作者预训练在一个包含指示采样比例的多种多模态数据集的集合上。

交错数据集混合。作者将MINT-1T(包括其HTML、PDF和ArXiv子集)与OBELICS(仅HTML)相结合,以创建一个更多样化和全面的数据集混合,覆盖更广泛的领域范围。

  1. MINT-1T[12]是一个万亿标记规模的多模态交错数据集,包括来自HTML、PDF和ArXiv的数据源。如MM1 [9]和Idefics2 [11]所示,此类多模态交错数据集对于扩展大型多模态模型训练,并实现诸如多模态情境学习等基本功能至关重要。值得注意的是,与OBELICS[11]不同,MINT-1T具有三个来自不同源的子集:HTML子集、PDF子集和ArXiv子集,这三个子集以7:5:1的比例混合在一起。
  2. OBELICS[11]是一个由仅HTML文档构建的大规模多模态交错数据集。由于采用的特定预处理步骤,其领域覆盖范围与MINT-1T略有不同。

标注数据集混合。作者整合了一系列不同类型的标注数据集,具体说明如下。

  1. BLIP3-KALE是一个大型高质量的标注数据集。具体细节将在另一篇论文中讨论,该数据集将会很快公开。
  2. BLIP3-OCR-200M是一个针对现有大型多模态模型在处理像文档和图表等文本丰富的图像的局限性的 curated 大型多模态标注数据集。为了增强文本理解能力,作者使用PaddleOCR[51]图像识别引擎对图像进行 OCR 特定的标注。总的来说,作者从一个名为Datacomp-1B[17]的范围内curated 200亿像素的高分辨率图像的数据集中构建了一个数据集。对于每个图像,作者用 OCR 数据创建标题,通过识别和提取文字元素来识别和提取文本。作者用例如_"... text... "这样的标题中的文本来替换文本段落,并将 OCR 信息添加到"... text( ocr_info)..."_中,其中ocr_info 包含提取到的文本的边界框坐标,以图像中特定位置的格式表示,如"bboxx_1<>,y_2/bbox"。作者提供了多种类型的 OCR 信息,包括带和无边界框数据的。在作者的工作中,作者仅使用了不带边界框数据的文本信息,这一点作者已经证明了其有效性。在 xGen-MM(BLIP-3)中,作者对标注进行预处理,以删除像“文本”这样的填充文本,作者认为这样可以提高 OCR 相关的基准测试性能。作者猜测这是因为像这样的填充文本相对容易被预测,可能会削弱与 OCR 相关的标记的损失。不过,将边界框信息引入其中可能会进一步提升表现,作者鼓励社区的 researchers 探索这个潜在的方向。
  3. BLIP3-GROUNDING-50M是一个针对增强在视觉特征中定位语义概念的能力的 curated 大型多模态标注数据集,这对于像目标检测、语义分割和理解指向表达式[52](例如“狗的左边的物体”)等任务至关重要。作者curate 了一个从Datacomp-1B[17]中curated的5亿像素图像的数据集。对于每个图像,作者用一种最先进的开放世界图像标记[53]和目标检测模型[54]来识别目标及其位置信息。例如在标题中提到的“... object...”,作者会将它们修改为包含定位信息如“... object(groundinginfo)..." 的格式,其中 groundinginfo 包含了文本的边界框信息,以图像的左上角、从左上角开始并延伸到右下角或图像左上角作为位置标识的不同粒度定位方式。
  4. 其他公开数据集混合: 此外,作者还包括像未curated Datacomp-1B[17]图像文本对,CC12M [14],CC3M [14],VG [15],SBU [16]等一些公开的数据集。

Supervised Fine-tuning Data Recipe

在微调阶段使用的数据集来自不同领域的公开数据集。作者包括涉及多个模态对话 [29]、图像描述 [55, 56]、视觉问答、图表/文档理解 、科学与数学 [65, 66]等各种模态图像文本数据。除多模态图像文本数据外,在视觉指令微调期间,作者还混合了纯净文本指令数据 。最终,作者收集了包含一百万个公开可用指令微调样本的混合,并在这些样本上对作者的模型进行一个epoch的微调。

多图像指令微调阶段开始于在单个图像样本上进行模型微调。作者使用一个由公共多图像/交错图像文本指令数据 [69, 70]组成的混合。为了避免模型在单图像能力上退化,作者重用了之前微调阶段中使用的单图像数据集的子集,并将它们混合到多图像训练数据中。

Post-training Data Recipe

改进真理性的直接偏好优化。作者使用VLFeedback [71],一个由可用的 vl-transformers [72]生成的合成的多模态偏好数据集,这些数据集的响应与多种多模态指令相关,然后通过GPT4-V [2]在三个轴上对其进行评分——有益性、视觉忠实度(视觉信仰)和伦理。该数据集包含80,000条这样的指令,其中作者通过标记首选(次选)的响应,并过滤出平均得分较低(较高)的已首选(已排除)响应的示例来构建偏好数据,从而生成了62,600个偏好示例。

作者进行一次周期(Epoch)的DPO并在使用LoRA [72]进行低秩归一化(LoRA [72])的同时更新部分LLM Backbone 权重(subset,2.5%)。同时,根据最近的研究[50],作者还生成了一套捕获模型内在(内在)假象(幻觉)的响应, 通过在每个迭代中针对该模型的输出,并到一个新的噪声输入图像和原始 Query 的“无害”版本进行DPO,作者将其视为另一个次选响应的额外不喜欢的响应。

图4:BLIP3-OCR-200M 的样本。 6个 Level 的OCR信息粒度,包括有和没有边界框数据。请注意,像xGen-MM (BLIP-3), OCR相关的标题经过预处理以删除填充词句(例如 ''文本'') ,从而提高了OCR基准测试性能。

通过安全微调改进无害性。接下来,作者在VLGuard [73]的训练拆分上进行3次安全微调,其中包含2,000个不安全图像和指令的例子。VLGuard包括两种类型的不安全例子:

(1)与安全指令配对的有害图像和可喜避行为(desirable abstention response),(2)与安全图像配对的安全和危险/敏感话题(例如政治、性、暴力)、欺骗和歧视等不同类别的不安全例子。遵循原来工作的方法,从指令精炼数据集中随机取样5k个额外示例以保留模型的有益性,同时不夸大其安全性行为。与前文一样,使用LoRA [72] 对LLM Backbone 权重执行子集更新(占2.5%)。

6 实验

Pre-training

少样本评估。在预训练阶段之后,作者在经典描述和VQA任务上将作者的预训练模型进行评估, compared with previous models that支持少样本学习多模态评价。作者提出了零样本和少样本(4-和8-shots)的结果,如表1所示。总的来说,作者的模型在可比较大小(1.0B)的LMMs下实现了具有竞争力的多模态上下文学习性能。对于OCR任务(TextCaps和TextVQA)和VQA-v2,它在MM1-3B和更大模型(如Identity-X、MM1-7B)之上实现了显著优势。在所有基准测试中,增加样本数量可以提高性能,从而演示了模型适应上下文分布的能力。

有监督微调

作者对作者的模型在多模态(图像文本)基准测试集上进行评估,从多个角度评估模型的性能。作者的评估包括以下视角的一般VQA基准测试,视觉感知[49],领域知识,OCR能力和幻想。对于在交错多图像数据集上进行微调的模型,作者也评估它们的性能在通用多图像基准测试上的表现。

图5:[来自于BLIP3-GROUNDING-50M。] 作者引入了一个大规模包含图像及其对应描述以及有关目标的局部化信息的图像和文字数据集。此外,作者还发布了相关的目标边界框数据以方便使用自定义模板创建描述。

单图评估。在表2中,作者与可比大小的模型(<5.0B)进行了比较,包括封闭源和最先进的开源模型[9,10,37]。作者报告了各基准测试的个别分数以及两种平均分数:"Avg.(all)"是所有基准的平均,"Avg.(perc.)"则是关注通用VQA和视觉感知的基准的平均分数。xGen-MM-instruct在通用VQA和视觉感知基准上都超过了之前的 Baseline 。此外,作者发现 xGen-MM-instruct-interleave虽进一步在多图像数据上进行微调但维持了良好的性能在单图像基准上,并且获得了最高的总体分数。

多图评估。在表3中,作者将xGen-MM-instruct与xGen-MM-instruct-interleave在多图像基准测试上进行了比较。尽管前者从xGen-MM-base这个可以理解交错图像文本数据的模型上进行微调,但在多图像基准上的表现较差。作者认为这可能是因为单独在单图像数据上进行微调伤害了这种能力。在多图像SFT,作者看到了显著的改进。此外,作者还对这些模型在单图基准测试(参见表2)上的表现进行了评估,并发现它们在所有基准上都保持了良好的表现,获得了最高的总体分数。

微调后训练

表4总结了xGen-MM-instruct的两种后训练策略的结果。作者使用VLGuard测试集上的ASR%(攻击成功率)来衡量安全性能,使用HallusionBench[82](图像-上下文推理的准确性)和POPE[83](二元实体存在的平均F1分数)来衡量幻觉性能。为确保后训练不会损害其有用的帮助性,作者报告了几个理解基准的成绩作为控制。

图6:[来自于xGen-MM-instruct-interleave的模型输出。] 该模型在理解交错图像文本输入和用户关于多个图像的 Query 的同时,保持了对单图像QA的性能。

DPO增强了真实性,通过提高幻觉基准(行2)来增强真相[2,3]。安全微调显著减少了ASR(行3)。友善性略有提高,这是由控制基准得出的。最终的模型xGen-MM-dpo包括所有改进。

7 Ablation Studies

Pre-training Ablation

扩展预训练数据.作者在2B到100B多模态标记的范围内进行数据缩放实验,以探索预训练数据量与预训练评估指标之间的关联。在本文中使用的数据配方是图像描述数据集和多模态交错数据的混合。如图7所示,作者发现将多模态标记数量从2B增加到60B时,图像文本(COCO-Caps)和OCR(Text-Caps,TextVQA)任务的性能有显著提高,而将数据量增加到100B,则对少样本评估指标具有中等程度的额外好处。

预训练数据配方.作者讨论了不同数据配方对预训练的影响,作者使用Obelics [13]作为多模态交错数据的来源,同时保持与描述数据集的混合物相同。作者还考虑了两种其他配方:(1)使用MINT-1T [12]作为交错数据的替代;(2)将纯文本只指令调优数据混合作为预训练数据集。如表5所示,作者发现使用MINT-1T对于图像文本对齐(COCO-Caps)和OCR(Text-Caps,TextVQA)任务性能改善,但在OK-VQA上略有性能下降,这是一个知识密集型任务。作者还发现,添加文本数据可以帮助实现依赖于LLM能力的表现。在表6中,给出了不同的视觉 Backbone (4-shot / 8-shot)下的少样本(4-shot / 8-shot)性能。

视觉 Backbone .作者还研究了不同的视觉 Backbone 对于视觉语言任务性能的影响。作者比较了两种类型的视觉编码器,DFN和SigLIP。实际上,作者发现SigLIP提供了更好的视觉表示,从而提升了OCR任务的表现。视觉标记数量。另一个分解实验则是研究不同的视觉标记数量,即输入图像标记进入语言模型。作者发现,将视觉标记数量从128减少到64仍然可以获得相似的性能,如表7所示。这样一来,模型可以在固定上下文窗口下获取更多的视觉图像。

SFT Ablation

在指令微调阶段,作者进行了消融试验,主要针对一些模型设计和数据配方进行了测试。简化的SFT消融试验是在一个简化的SFT数据混合上进行的,所以在这一部分得到的结果不能直接与第6.2节的主要结果相比。

任何分辨率视觉标记采样。作者的任意分辨率策略与先前的研究有所不同,因为同一行图像块(同一图像)的每个组嵌入都是通过感知重采样器下采样的,这确保了输入到 LLM 的视觉标记数量仍然相对较小。在本节中,作者通过与“固定分辨率” Baseline 和其它下采样设计进行比较,消融了作者任意分辨率策略的有效性。

“固定分辨率” Baseline 将所有图像重新缩放到视觉编码器的默认输入大小,同时保持原始纵横比。作者还尝试了另一种利用感知重采样器的下采样策略:取而代之的是对每个块独立进行下采样,作者采用了一个“固定采样”(图7(a) 中定义为 anyres-fixed-sampling)。在固定采样中,作者将所有图像块的嵌入拼接在一起,并将其作为一条序列输入到感知重采样器,从而获得整个图像的固定数量的视觉标记。

图8 演示了 SFT 消融试验。(a)不同视觉标记采样策略在 OCR 基准测试中的对比。(b)作者的模型与其“指令感知的”替代品的对比。对于图(b)中每个评估域,作者报告了在多个相关基准测试上的平均得分。

作者对这个设计的评估主要集中在具有大量文本的任务(例如文档理解),这些任务将从高分辨率编码中受益匪浅,并具有视觉细节。从图7(a) 中作者可以看到,即使使用下采样视觉标记,作者的分辨率图像编码策略也能显着改善。固定采样策略虽然显示出优于基本分辨率 Baseline 的改进,但 patch-wise 采样的效果更好。

作者认为这可能有两个原因:

(a) 在固定采样中,一个拥有超过 3000 个嵌入标记的可视标记序列可能被压缩到 128 个标记,这可能保留信息过少。

(b) 感知重采样器可能与不同图像嵌入的拼接效果不佳。

8 Conclusion

作者提出了xGen-MM (BLIP-3),这是一个全面框架,可在大规模多模态数据集的混合上训练一系列开源大型多模态模型。xGen-MM (BLIP-3) 展示了多模态在语境中的学习能力,并在多模态基准测试上取得了惊人的结果。通过开源xGen-MM (BLIP-3),作者的精选数据集,和作者的SFT微调代码库,作者希望为研究社区提供可访问的多模态基础模型和数据集,使实践者能够进一步探索并推进LMMs的潜力和新出现的特性。

xGen-MM (BLIP-3) 框架及其一系列大型多模态模型(LMMs) 有潜力通过为更广泛的社区提供可获取的、开源的资源,从而显著推进多模态AI研究。通过促进最新LMMs的开发和微调,xGen-MM (BLIP-3) 赋予各个领域的 Researcher 和 Practitioner 创新和应用这些模型的能力,并将其应用于各种实际的挑战。此外,xGen-MM (BLIP-3) 框架内的安全性调整协议的整合有助于减少偏见和错误信息的风险,从而促进 AI 技术负责任的部署。

参考

[1].xGen-MM (BLIP-3): A Family of Open Large Multimodal Models.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.5K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。
叶子的技术碎碎念
2025/04/08
610
每周AI论文速递(240819-240823)
5个实际开源的多模态AI模型
多模态AI正吸引着大量关注,这要归功于其诱人的前景:设计用于处理文本、图像、音频和视频组合的AI系统,成为多面手。
云云众生s
2024/12/14
7870
5个实际开源的多模态AI模型
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
大型多模态模型近年来取得了显著进展,在包括图像和视频理解、数字代理开发[53]和机器人技术[24]在内的多个领域表现出卓越性能。要理解和处理广泛任务和复杂场景的必要性凸显了视觉编码器的重要性,而视觉编码器主要是指Vision Transformer。然而,ViT的二次空间复杂性和过多的视觉标记输出限制了其在多样和高分辨率任务中的应用。过多的视觉标记导致大型语言模型的计算负担大幅增加,远远超过了视觉编码器中二次空间复杂度引起的计算成本。这种视觉标记的冗余不仅牺牲了效率,还阻碍了视觉信息的有效提取[31;11]。尽管提出了一系列方法(表1;[31;27;49])来修正ViT的二次空间复杂度,但它们未能解决视觉标记冗余的关键问题[5;28]。
AIGC 先锋科技
2024/07/08
3790
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。
机器之心
2024/03/18
1480
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
手机上的 GPT-4V 级多模态大型语言模型!
随着多模态大型语言模型(MLLM)的快速发展,作者的理解、推理和交互能力在多个模态下有了显著提升。这不仅从根本上改变了AI研究和发展的新格局,而且为向下一个AI里程碑迈进提供了一扇诱人的窗户。然而,当前的MLLM在实际应用中仍存在很大的局限性。其中一个最突出的挑战是,目前大多数MLLM参数数量庞大,计算负担重,导致大多数MLLM只能部署在高性能云服务器上,从而产生大量的能源消耗和碳排放。这一限制极大地限制了潜在的应用范围,如在移动设备、敏感能源场景、没有稳定网络连接的离线场景以及个人和工业用户的隐私/安全保护场景等。
AIGC 先锋科技
2024/08/19
1810
手机上的 GPT-4V  级多模态大型语言模型!
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要。拓展的关键在于进行模态对齐,即学习将剩余模态以相同语义映射到预训练LLM特征空间的对应语言模态。
AIGC 先锋科技
2024/08/30
2830
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
4B规模下能力极高的LMMs。 值得注意的是,作者的Imp-3B模型在所有现有相似规模的轻量级LMMs中表现稳定地超越,甚至超过了13B规模下的最先进LMMs。 通过低比特量化技术和分辨率降低技术,作者的Imp模型可以部署在高通骁龙8Gen3移动芯片上,具有高达约13个 Token /秒的高推理速度。
AIGC 先锋科技
2024/07/08
3190
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态能力的努力。这一概念得到了诸如OpenAI的GPT-4V[1]和谷歌的Gemini[2]等专有模型显著成功的进一步支持。因此,多模态大型语言模型(MLLM)应运而生,包括mPLUG-Owl系列[3, 4],InternVL[5],EMU[6],LLaVA[7],InstructBLIP[8],MiniGPT-v2[9]和MiniGPT-4[10]。这些模型通过有效利用每种模态的预训练知识,避免了从零开始训练的计算成本。MLLM继承了LLM的认知能力,展示了许多出色的特性,如强大的语言生成能力和迁移学习能力。此外,通过与其他基于模态的模型建立强烈的表征联系和对齐,MLLM可以处理来自多种模态的输入,显著拓宽了它们的应用范围。
AIGC 先锋科技
2024/07/31
3240
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。此外,它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。
机器之心
2024/01/04
4370
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
多模态大语言模型研究进展!
多模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。本文对MM-LLMs进行了全面综述,包括模型架构和训练流程的概述,以及122个最新进展的MM-LLM分类系统。
算法进阶
2024/07/22
3220
多模态大语言模型研究进展!
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
在近期关于多模态模型的研究中,将图像理解与生成统一起来受到了越来越多的关注。尽管图像理解的设计选择已经得到了广泛研究,但对于具有图像生成功能的统一框架而言,其最优模型架构和训练方案仍有待进一步探索。鉴于自回归和扩散模型在高质量生成和可扩展性方面具有强大潜力,我们对它们在统一多模态环境中的使用进行了全面研究,重点关注图像表示、建模目标和训练策略。基于这些研究,我们提出了一种新方法,该方法采用扩散Transformer生成语义丰富的CLIP图像特征,这与传统的基于VAE的表示方法不同。这种设计既提高了训练效率,又提升了生成质量。此外,我们证明了统一模型的顺序预训练策略——先进行图像理解训练,再进行图像生成训练——具有实际优势,能够在发展强大的图像生成能力的同时,保持图像理解能力。最后,我们通过使用涵盖各种场景、物体、人体姿态等的多样化字幕提示GPT-4o,精心策划了一个高质量的指令调优数据集BLIP3o-60k,用于图像生成。基于我们创新的模型设计、训练方案和数据集,我们开发了BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o在大多数涵盖图像理解和生成任务的流行基准测试中均取得了优异表现。为促进未来的研究,我们完全开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令调优数据集。
AI浩
2025/05/25
1670
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024/07/11
2980
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
LLaVA-Read 在多模态任务中的高性能表现 !
指令微调已显示出在未见任务中的显著泛化能力,这促使大型语言模型(如GPT-4[3])的采用不断增加。近期,多模态语言模型从视觉指令微调中受益,在现实世界应用中取得了重大成功。这些模型利用了如CLIP-ViT的视觉编码器,为LLM赋予了图像理解能力。然而,在理解图像中的文本信息方面仍存在挑战,这很可能是由于训练数据集中自然图像的普遍性,正如所强调的。为了解决这个问题,[14]提出通过引入带噪声的光学字符识别(OCR)标注来改进端到端视觉指令微调模型,从而提高视觉与语言的协同对齐。此外,低分辨率视觉编码器也带来了挑战,因为至少需要九个像素才能识别一个单词。先前的工作探索了各种方法来提高编码器的分辨率,在多个下游任务中取得了显著的性能提升。然而,值得注意的是,高分辨率编码器通常需要更多资源进行图像编码,并产生更多的视觉标记供语言模型处理,这导致训练和推理过程中的低效率。提出了视觉标记合并和更智能的架构设计等方法来减轻这些挑战并提升模型性能。
AIGC 先锋科技
2024/08/06
2630
LLaVA-Read 在多模态任务中的高性能表现 !
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3730
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
Apple & 哥伦比亚大学提出 Ferret-v2 | 视觉理解升级,助力高分辨率图像细粒度处理 !
在AI近期的发展中越来越关键,作为开发多功能通用助手的基础元素。然而,这些方法建立在粗糙的图像级对齐上,这在细粒度理解(如区域描述和推理)方面存在不足。为此,Peng等人(2023年);Chen等人(2023年);You等人(2023年)整合了定位能力,并在对话中解锁了参照能力,即用户可以指向物体或区域作为输入,模型以边界框的空间坐标回应。这一进步使MLLMs能够执行需要详细视觉理解的任务,是该领域的重要进展。
AIGC 先锋科技
2024/07/08
2760
Apple & 哥伦比亚大学提出 Ferret-v2 | 视觉理解升级,助力高分辨率图像细粒度处理 !
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
近年来,自然语言处理(NLP)与计算机视觉的结合在多模态学习领域引发了重大创新和突破。特别是,如GPT-4V [30] 和 Gemini [39]等先进的视觉语言模型(VLMs)利用文本与视觉数据的协同作用,实现了对世界的先进理解和交互。凭借其强大的能力,它们在各种下游视觉语言任务中表现出色。
AIGC 先锋科技
2024/07/08
3770
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。
新智元
2024/02/06
2.7K0
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
多模态大型语言模型(MLLMs)在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型(LLMs)作为基础架构来处理连接的视觉和语言嵌入。以LLaVA [3]作为代表作品,它采用低分辨率(, 等)图像作为输入,并通过MLP投影器将视觉嵌入与文本模态对齐,然后进行指令调整。LLaVA的架构已被后续工作广泛采用,并已应用于各种视觉任务,包括检测、分割和视频理解。
AIGC 先锋科技
2024/07/08
6410
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
1590
论文解读 - 统一的多模态理解和生成模型综述(下)
推荐阅读
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.5K0
每周AI论文速递(240819-240823)
610
5个实际开源的多模态AI模型
7870
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
3790
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
1480
手机上的 GPT-4V 级多模态大型语言模型!
1810
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
2830
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
3190
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
3240
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
4370
多模态大语言模型研究进展!
3220
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
1670
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
2980
LLaVA-Read 在多模态任务中的高性能表现 !
2630
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3730
Apple & 哥伦比亚大学提出 Ferret-v2 | 视觉理解升级,助力高分辨率图像细粒度处理 !
2760
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
3770
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
2.7K0
细粒度视觉处理,MG-LLaVA 多模态大型语言模型,从3.8B到34B,物体识别能力大幅提升 !
6410
论文解读 - 统一的多模态理解和生成模型综述(下)
1590
相关推荐
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档