在文本分词器的基础上,GPT-4 也会将视觉输入(图像/视频)“分词”为图像标记,这些标记的数量将决定您的 API 调用成本。因此,了解分词器的工作原理(或者至少掌握如何使用代码预先计算标记数量)非常重要,以免您的 API 账单超出预期。
本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。 不同任务常用benchmark如下: VLM benchmark: MM-Vet MMBench MMBench-CN SEED-Bench LLaVA-Bench MME 测幻觉:POPE 其中MM-Vet 归纳了VLM需要具备的6种能力,并组合出16种任务,比例如下: Image Caption COCO MM-IT-Cap Visual Question Answering(VQA) VQAv2 VizWiz
AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM,代码已开源! 我们在VLM中输入整个视频、一个虚拟文本令牌和一个孤立的注意力mask。然后,我们在VLM最后一层的每个视频token的隐藏状态之上添加一个分类头(带有预先定义的标签数量)。 VLM优于其他baseline,表明其良好的token级视频表示。 上表展示了在CrossTask数据集上,VLM在Action Step Localization任务上的实验结果。 从结果上看,VLM的性能优于其他baseline。 最后,作者使用自回归注意力mask和其他具有显式文本解码器的baseline来评估VLM在视频字幕上的性能。 Ablation Study 上表展示了VLM在Youcook2数据集上检索效果的消融实验结果。 上表展示了VLM在Youcook2数据集上captioning效果的消融实验结果。
1.2 方法改进 为了提高WalkVLM的效果,研究人员提出了以下改进措施: 1)使用Chain of Thought(CoT)架构逐步将信息从三个层次输入到视觉语言模型(VLM),并在测试时让模型预测上述属性并生成相应的响应 3)引入了Temporal-Aware Adaptive Prediction(TAP)模块,利用历史信息预估是否需要触发VLM,从而减少硬件计算压力。
作者介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效部署在消费者级GPU服务器上。作者的工作直接解决了阻碍大规模多模态系统广泛采用的昂贵服务成本这一关键行业问题。 作者称之为Xmodel-VLM的结果是一个轻量级但强大的多模态视觉语言模型。 在众多经典多模态基准测试的广泛测试中,尽管Xmodel-VLM的规模更小、执行速度更快,但其性能却与大型模型相当。 在本文中,作者介绍了Xmodel-VLM,一个由紧凑型语言模型驱动的创新视觉语言助手。 作者的贡献如下: 作者深入探讨了在数TB数据上精心训练的小型中英语言模型的性能和能力。 如表5所示,作者的分析表明,尽管参数数量较少,作者提出的Xmodel-VLM 1.1B模型展现了具有竞争力的性能。 作者评估了模型的推理延迟,与LLAVA-7B和Mobile-VLM模型进行了比较。 在流行的VLM基准测试上的大量实验证明了其有效性。
VLm2Vec: 作者采用预训练的视觉语言模型Phi-3.5-V(Abdin等人,2024年)作为VLm2Vec的 Backbone 。 这些因素使得VLm2Vec成为任务泛化的理想选择。作者在20 MMEB训练数据集上训练VLm2Vec,并使用对比学习方法,将其性能与各种 Baseline 进行了比较。 3 Vlm2Vec: Transforming LVMs to Embedders Contrastive Training 作者开发了Vlm2Vec,这是一个对比训练框架,旨在将任何最先进的视觉语言模型转换为嵌入模型 对于预训练的VLM,作者在 Query 和目标后添加一个[EOS] Token ,然后将其输入到VLM中,通过取最后一层[EOS]向量获得 Query 和目标嵌入()。 作者将这三个模型称为VLM2VecRET,在8个检索任务上训练,VLM2VecVQA,在6个视觉问答任务上训练,VLM2VecCLS,在5个分类任务上训练。
如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。 基于此分析,他们提出的混合位置编码(HoPE, Hybrid of Position Embedding)大幅提升了 VLM 的长度泛化能力,在长视频理解和检索等任务中达到最优表现。 该研究首次从理论上分析了不同频率分配策略对 VLM 长度泛化能力的影响,指出了保留所有频率的策略抑制了多模态长下文中的语义建模。 根据此分析,该研究提出了混合位置编码(HoPE, Hybrid of Postion Embedding), 旨在提升 VLM 在长上下文中的语义建模能力,从而进一步提升其长度泛化能力。 在训练阶段通过取不同的缩放因子使 VLM 学习不同尺度的时序关系,增强其对不同视频速度的鲁棒性,另外,在推理期间,缩放因子可以随着应用场景的不同而调整,提供了适应性的选择。
多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题,北京大学计算机学院联合字节跳动提出了ConBench,弥补了这一缺陷。ConBench评测流程简洁快速,目前合并至LLaVA官方推理库lmms-eval中,欢迎大家试用。
其中提出的 ICAL 可让 LLM 和 VLM 根据次优演示和人工反馈创建有效的提示词,从而改善决策并减少对专家演示的依赖。 最近有研究探索了使用大型语言模型(LLM)和视觉 - 语言模型(VLM)来从轨迹和经验中提取高层级见解。 而 CMU 和 DeepMind 这个研究团队的做法是:给定次优的演示和人类自然语言反馈,通过学习上下文经验抽象来让 VLM 学习解决新任务。 ICAL 这种方法可通过提示,让 VLM 创建用于不熟悉领域的多模态抽象。 我们知道,之前的研究工作通常仅存储和检索成功的动作规划或轨迹。 当具有最优或次优演示时,ICAL 可通过提示 VLM 将这些演示转换为优化后的轨迹,同时创建相关的语言和视觉抽象。然后在人类的自然语言反馈的引导下,通过在环境中执行这些轨迹来优化这些抽象。
提示生成模块对输入的前景图像进行语义分析,利用VLM预测相关的语言描述,并使用LLM推荐最佳的语言提示。 结果分析器使用VLM评估图像内容的合理性、审美分数以及前景与背景的相关性,根据需要触发提示和图像的重新生成。 为了解决这些挑战,作者引入了Anywhere,这是一个新颖的多代理框架,采用了包括VLM,LLM,SDXL,和控制Net等在内的各种代理的复杂流程。 Woodpecker,SIRI通过LLM的知识增强了VLM的推理能力。已经出现了一种趋势,即将大型模型的能力应用于多模态任务。 首先,由视觉-语言模型(VLM)代理的形象叙述者提供关于前景外观属性的文本描述,包括颜色、纹理、类型和视角。作者维护一系列用作VLM提示的问题,以收集关于前景目标的有价值见解。
各大厂商都在卷参数、卷榜单,但用户体验下来,总感觉模型们擅长“看见”,却不擅长“看懂”,离真正的“理解”和“推理”还有一步之遥。
该团队表示,这篇论文的目标是帮助读者轻松理解 VLM 并着重说明这一领域的有效实践,而不是提供 VLM 研究成果的详尽综述或完整指南。 用预训练骨干网络构建的 VLM VLM 的一个缺点是从头开始训练的成本很高。这通常需要成百上千台 GPU,同时还必须使用上亿对图像和文本。 这一节首先将讨论训练模型时数据的重要性,并会给出一些用于构建 VLM 训练数据集的方法。 然后会讨论常用的软件、工具和技巧,它们可帮助实践者更高效地训练 VLM。 VLM 常被用于阅读和翻译文本,所以他们也会分享一些用于进一步提升 VLM 的 OCR 能力的技术。 最后是一些常用的微调方法。 另外,我们已经知道 VLM 会表现出偏见和幻觉,因此对这两方面进行评估也非常重要。 将 VLM 扩展用于视频 之前谈到的 VLM 基本都是在静态视觉数据(图像)上训练和评估的。
今天我将基于行业技术文档,系统梳理VLM的核心机制、优化方法、评测体系及当前挑战,希望能帮助到各位。一、什么是VLM大模型 VLM是一种能够同时处理和理解图像与文本的人工智能模型。 VLM极大地拓展了AI在自动驾驶、智能助理、创意生成等领域的应用潜力。二、VLM的工作原理 VLM的核心是将视觉和文本信息映射到同一语义空间,使语言模型能够“理解”图像内容。 三、VLM的推理逻辑 VLM推理分为两个阶段:Prefill(预填充)阶段:图像与文本输入被编码并融合为统一序列; 模型计算整个序列的Key-Value Cache(KV Cache),存储上下文信息 五、VLM的测试方法 VLM测试需兼顾功能正确性与推理性能:1. 六、VLM的评测指标 为客观评估VLM能力,常用以下基准与指标:VQA-v2、TextVQA、GQA:用于视觉问答任务,评估答案准确性;MSCOCO Captions、NoCaps:评估图像描述生成质量
为此,字节跳动 AI Lab Research 团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。 论文:https://arxiv.org/abs/2111.08276 代码:https://github.com/zengyan-97/X-VLM 比如,X-VLM 学到了多粒度的视觉和语言对齐,能为图片生成更正确的描述物体和物体间关系的句子 方法 X-VLM 由一个图像编码器,一个文本编码器,一个跨模态编码器组成。 X-VLM采用常见的模型结构,其不同之处在于预训练的方法。 为了公平的对比,X-VLM 沿用了之前工作的 fine-tune 方法,没有进行额外的调整。
主要贡献 本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献: VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。 一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。 还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。 ORION 的结构包括 QT-Former、VLM 和生成模型。
2 现有模型的问题 当前VLM 不能很好推理,而 LRM 只能处理文本,无法理解视觉信息。若想要一个既能看懂图像,又能深度推理的模型? 3 VLM架构 如LLaVA,Large Language and Vision Assistant(大规模语言与视觉助手),2023年底发布的知名 VLM。 LLM 预测过程示意图: 那VLM咋工作的?VLM不仅根据前面的文本预测输出,还会参考输入的图像。VLM 预测过程示意图: 但咋让 LLM 理解图像? 4 VLM咋处理图像输入? LLaVA 微调过程示意图: 6 能否用强化学习(RL)训练 VLM? RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。 7 实际应用 VLM目前在某些场景仍表现不佳,如数学和科学类问题。
VLM正在迅速应用于各种任务,从少样本分类到文本引导图像生成,因此,对VLM嵌入进行去偏的重要性不言而喻。 然而,许多去偏方法在微调VLM时往往会出现灾难性遗忘。 问题定义:作者研究VLM嵌入的在线开集去偏。在这种设置下,作者只拥有一个VLM以及一个单模态图像数据集。这个图像数据集仅用于“训练”,而不是下游任务实际使用的数据集。 作者的建议是:消除视觉语言模型(VLM)的偏差,即Bend-VLM,这是一种在测试时对VLM进行非线性去偏的方法,在保持VLM权重不变的同时,具有足够的效率用于在线 Query 。 贡献如下: 作者提出了一种名为Bend-VLM的新颖测试时VLM去偏方法,该方法无需微调。 作者提出了一种在飞行中实时寻找每个 Query 特定局部属性子空间的技术。 作者再次看到,Bend-VLM在所有作者评估的场景中,与比较方法相比具有较少的偏见。
值得注意的是,经过GPT4Scene训练后,VLM能够在没有视觉提示和鸟瞰图像的情况下持续改进,这表明该方法有助于VLM发展内在的能力去理解三维场景,为扩展预训练VLM提供了一种非侵入式的方法。 3)在鸟瞰图上标记出特定物体的位置,并在原始视频帧中显示这些标记,以便VLM能够关注特定的物体。 4)将以上处理后的视频序列和鸟瞰图像输入到VLM中,以完成任务。 此外,论文还提出了两种方法来进一步提高VLM的能力:一种是使用零提示解锁强大的封闭源VLM,另一种是通过对ScanAlign数据集进行单阶段指令微调来增强开源、较小规模的VLM。 此外,论文还提出了零提示解锁和ScanAlign微调这两种方法,分别适用于不同的VLM类型,从而提高了不同VLM的能力。 1.3 解决的问题 论文的主要目标是解决VLM在理解三维场景时存在的问题。 这种方法使得VLM能够更好地理解三维场景信息,并取得了显著的性能提升。 未来展望 本文的研究成果为VLM在三维场景理解方面的应用提供了新的思路和方法。
深度文档解析,视觉语言模型(VLM)助力PDF图像识别 支持在文档版式识别流程中集成VLM模型,实现PDF内图像的深度语义解析,极大提升文档内容的理解与结构化能力。
VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限; 2. 闭环 VLM 规划:将⽬标交互姿态下的 Active/Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。 OmniManip 则更进⼀步,得益于以物体为中⼼的设计理念,⾸次在 VLM 规划和机械臂执⾏层⾯实现了双闭环系统: 闭环规划:在实验中,VLM 推理很容易出现幻觉,导致错误的规划结果(尤其是在涉及 3D OmniManip 赋予 VLM 闭环规划能⼒,通过渲染物体的三维模型,帮助 VLM 「脑补」出规划结果后的物体样貌,再判断其合理性。 交互基元的鲁棒性 VLM 需要基于交互基元对机器⼈操作进⾏规划,如果交互基元本身存在问题,VLM 就会陷⼊「巧妇难为⽆⽶之炊」的困境。因此,可靠的交互基元⾄关重要。