Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!

加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!

作者头像
AIGC 先锋科技
发布于 2024-07-08 04:56:28
发布于 2024-07-08 04:56:28
3650
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

视觉-语言模型(VLMs)和多模态语言模型(MMLMs)在自动驾驶研究中日益突出,因为这些模型能够使用交通场景图像和其他数据模态为端到端的自动驾驶安全任务提供可解释的文本推理和响应。然而,目前这些系统的实现方法使用了昂贵的大型语言模型(LLM)主干网络和图像编码器,这使得这些系统不适合存在严格内存限制和需要快速推理时间的实时自动驾驶系统。 为了解决这些问题,我们开发了EM-VLM4AD,这是一个高效、轻量级、多帧的视觉-语言模型,用于执行自动驾驶的视觉问答。与之前的方法相比,EM-VLM4AD至少需要减少10倍的内存和浮点运算,同时在DriveLM数据集上的BLEU-4、METEOR、CIDEr和ROGUE得分也超过了现有基线。EM-VLM4AD还展现出从与提示相关的交通视图中提取相关信息的能力,并能为各种自动驾驶子任务回答问题。

1 Introduction

视觉-语言模型(VLMs)已经成为一种强大的工具,它们具备整体知识,能够解决视觉和语言交叉领域的问题。这使得它们在自动驾驶(AD)中具有巨大的潜力,允许驾驶员与VLM互动,VLM能够提供各种驾驶安全任务的易于理解的语言表示。此外,VLM可以作为端到端的自动驾驶系统,消除了在自动驾驶特定子任务(如感知和轨迹规划)的单独模型之间的集成和传播错误。这些潜在的好处推动了许多为自动驾驶应用量身定制的视觉-语言模型和多模态语言模型的发展。这些模型涵盖了自动驾驶的各个方面,包括闭环控制、感知任务和交通代理行为分析。

通常,VLM的处理过程如下:视觉文本特征分别编码,然后通过连接或投影层融合在一起,最后输入到LLM以输出词汇的概率分布。虽然生成文本嵌入相对成本低廉,但LM和图像嵌入往往需要高昂的计算成本。在自动驾驶等实时系统中,优先发展具有高效推理时间的VLM对于实际部署在车辆中至关重要。

然而,目前将多模态语言模型应用于自动驾驶的研究主要使用大型模型,如BLIP-2、GPT 3.5和LLaMA-7b,这些模型都包含超过十亿个参数。因此,这些模型需要昂贵的硬件和更长的推理时间,限制了它们在现有车辆中的应用潜力,以及计算资源有限的研究人员的可访问性。

本文关注于开发参数少于十亿的轻量级视觉-语言模型,这些模型能够准确高效地回答与自动驾驶安全任务相关的问题。我们开发了模型EM-VLM4AD:高效的多帧视觉-语言模型,用于自动驾驶。我们使用DriveLM数据集DriveLM-Agent,该数据集提供真实的、多视角的交通场景图像,以及与问题/答案对,来训练这个模型。我们的贡献如下:

  • 我们开发了高效的、较小的视觉-语言模型EM-VLM4AD,其内存消耗和浮点运算(FLOPs)至少比当前的AD-VLMs少10倍,并且能够响应基于多帧的问题。
  • 我们探索了两种不同的轻量级LM骨干网络用于EM-VLM4AD:一种经过微调的Text-to-Text Transfer Transformer(T5)基础LM,以及一种经过8位量化并使用低秩适应(LoRA)微调的T5-Large LM。
  • 我们在BLEU-4(双语评估替补)、CIDEr(基于共识的图像描述评估)、ROUGE-L(以回忆为导向的摘要评估替补)和METEOR(具有显式排序的翻译评估指标)上比较了我们的模型效率与性能,与DriveLM数据集DriveLM-Agent的基线相比,即使使用更小的模型,所有指标上的表现也更加强劲。

2 Related Research

Vision-Language Models

最初设计用于处理序列数据,Transformer模型在自然语言处理任务上取得了最先进的表现。这推动了大型语言模型的发展,这些模型通过在大量标记语料库上预训练编码器、编码器-解码器和解码器Transformer架构,学习语言的通用统计特性。这些预训练模型随后可以针对下游的、更专业的语言任务进行微调。Dosovitskiy等人[10]引入了Transformer在图像任务上的应用,即Vision Transformer(ViT),它将图像转换成图像块序列表示,以便由Transformer处理。

视觉-语言模型弥合了大型语言模型和Vision Transformer之间的差距,将图像和文本编码为组合的潜在表示,并利用跨模态预训练任务来学习文本和图像的相关性。这种多模态学习的一般方法催生了许多视觉-语言模型。Radford等人[28]设计了一种将文本标题与图像匹配的预训练任务来开发CLIP,它学习最先进的图像表示,并在许多图像分类任务中展现出强大的零样本迁移能力。BLIP-2引入了两阶段预训练过程来训练查询Transformer“QFormer”,作为冻结图像编码器与语言模型之间的中介。这种方法胜过更大的视觉-语言模型,如Flamingo,并能够进行零样本图像到文本生成。

Instruct-BLIP基于BLIP-2并是一个通用目的的VLM,它汇总了公共视觉-语言数据集并将它们转换为指令调优格式。与本文介绍的模型最相似的VLM是VLT5,它扩展了预训练的T5,以学习在文本和图像嵌入组合条件下生成文本标签。使用预训练的大型语言模型作为多模态任务的框架,利用了这些模型的文本生成能力,这对于我们研究中涉及的问题回答任务至关重要。

尽管这些大型模型在许多任务上表现出色,但部署这些通常超过十亿个参数的模型对于实时应用来说仍然困难。因此,研究压缩技术,如蒸馏、量化和剪枝,对于减少VLM的延迟和计算成本是至关重要的。

Multimodal LLMs for Autonomous Driving

在自动驾驶系统主要使用视觉特征的同时,引入语言特征可以增强这些系统的可解释性,甚至有助于识别新的交通情况。这一优势激发了将多模态数据集成到训练语言模型中,使其成为自动驾驶代理的研究兴趣。Chen等人[5]设计了一种架构,将向量化数值模态与预训练的LLaMA-7b融合在一起,以解决驾驶问答任务。他们采用两步训练方法,首先将向量表示转化为可解释的嵌入,供冻结的LLaMA模型使用,然后使用LoRA对LLM进行微调。

DriveGPT4也采用LLaMA作为骨干LLM和CLIP作为视觉编码器,使用交通场景视频和提示文本作为输入,生成答案和低级车辆控制信号。为了扩展来自BDD-X数据集的固定和刚性的QA标签,DriveGPT4在由ChatGPT/GPT4生成的指令调整数据上进行训练。DriveGPT4只使用单个视角的摄像头,这限制了它只能处理涉及单一视角的问题。Wang等人[35]引入了DriveMLM,它使用多视角图像、激光雷达点云、交通规则以及来自真实模拟器的用户命令来执行闭环驾驶。这个多模态模型由LLaMA-7B和ViT-g/14作为图像处理器构建而成。

Sha等人[30]为驾驶场景设计了基于ChatGPT 3.5的推理链框架,为自动驾驶系统提供可解释的、逻辑上的推理。Mao等人[24]也利用GPT-3.5模型为自动驾驶车辆创建了一个运动规划器。他们的模型GPT-Driver将运动规划重新定义为语言建模问题,通过将规划器的输入和输出表示为语言标记。

最近,Sima等人DriveLM-Agent发布了DriveLM数据集,这是一个图视觉问答数据集,它提供了关于感知、行为和自车规划的问答对,基于NuScenes数据集的多视角图像数据。为了引入一个基线,Sima等人对BLIP-2进行了针对这一新数据集的微调。

尽管这些方法为AD系统提供了有价值的可解释性,并在端到端任务上表现出强大的性能,但所有这些模型都使用了超过十亿个参数的LLM(如GPT 3.5、LLaMA等)和昂贵的图像编码器,如CLIP和ViT-g/14。这使得它们主要适用于延迟不是优先考虑的离线场景,而不适用于实时推理至关重要的在线场景。

Multi-Image Vision-Language Models

在自动驾驶领域,除了文本和图像之外,如激光雷达(LiDAR)、雷达或视频等模态为许多下游任务提供了重要的特征。然而,大多数视觉-语言模型都是针对单图像单文本问题进行预训练的,这使得直接输入多张图像或多种模态与一段文本结合变得不可行。因此,有必要将多种模态和文本整合到单一的嵌入中,以便由视觉-语言模型(VLM)使用。DriveGPT4 通过池化每个视频帧的CLIP视觉编码来编码视频输入。

DriveMLM DriveLM-Agent的多模态分词器使用QFormer将视频和激光雷达数据嵌入,然后将这些嵌入与文本和系统消息嵌入拼接。吴等人[37]发现,在每個个別图像嵌入上使用门控注意力池化有助于引入更多的非线性,并跨多张图像提取视觉信息。重要的是,这种门控注意力方法引入的计算开销微乎其微,使其成为我们模型将多视角交通场景图像聚合为统一嵌入的理想选择。

3 Methods

我们的自动驾驶视觉问答(VQA)模型,EM-VLM4AD,包括一个自定义的图像嵌入网络和一个预训练的T5语言模型[29]。在本节中,我们将描述这些模块以及整个训练过程。

Image Embedding Network

为了解决自动驾驶中的多视角(前、前左、前右、后、后左、后右)问答任务,需要将单个图像嵌入聚合成一个单一的嵌入。这个统一的嵌入随后可以与文本嵌入连接起来,作为LM的输入。在典型的视觉语言模型中,图像嵌入过程使用如CLIP或目标检测网络这样的模型,导致提取过程缓慢。

为了解决这个问题,我们采用了ViT中引入的图像块投影嵌入方案。给定一个RGB图像

I\in\mathbb{R}^{3\times H\times W}

,将图像展平并切成带有线性投影和位置嵌入的图像块。这产生了潜在图像表示

V_{i}\in\mathbb{R}^{S_{I}\times H_{I}}

,其中

S_{I}

是图像嵌入的序列长度,

H_{I}

是图像嵌入的隐藏维度。我们使用在ImageNet上预训练的ViT-B/32的预训练权重来生成这些图像嵌入。

这样,我们得到了每个视角的6个不同的单个图像嵌入,现在需要将这些嵌入结合起来。我们首先将每个图像嵌入展平为一个一维向量,然后使用吴等人[37]描述的门控池化注意力。给定个体图像嵌入

V_{i}

,门控池化注意力学习一个单一嵌入:

V=\sum_{i=1}^{N}\alpha_{i}V_{i} \tag{1}

其中

\alpha_{i}

是第i个图像的权重,使得

\sum_{i=1}^{N}\alpha_{i}=1

,计算方式如下:

\alpha_{i}=\frac{exp\{w^{T}(tanh(ZV_{i}^{T})\otimes sigm(GV_{i}^{T}))\}}{\sum_{ j=1}^{N}exp\{w^{T}(tanh(ZV_{j}^{T})\otimes sigm(GV_{j}^{T}))\}} \tag{2}

其中

w\in\mathbb{R}^{K}

Z\in\mathbb{R}^{K\times M}

G\in\mathbb{R}^{K\times M}

M=S_{I}H_{I}

K

是我们设置为128的超参数。门控池化注意力引入了非线性,有助于跨图像汇聚视觉信息。使用这个组合的图像嵌入

V\in\mathbb{R}^{S_{I}\times H_{I}}

,然后我们将这个嵌入投影以匹配文本嵌入的维度

H_{T}

,以便可以将文本和图像嵌入的维度

\mathbb{R}^{(S_{T}+S_{I})\times H_{I}}

连接起来,其中

S_{T}

是文本嵌入的序列长度。这个连接的多模态嵌入随后输入到LM中以生成答案文本。

Language Model

为了减少视觉-语言模型的计算和推理成本,我们旨在使用参数量少于十亿的轻量级语言模型。为此,采用了两种不同预训练版本的T5语言模型:T5-Base,包含大约2.23亿个参数,以及8位量化的T5-Large(约7.5亿个参数)。使用这些预训练语言模型,我们对模型进行微调,以适应拼接的多视角图像和文本嵌入。在实验中,我们发现对T5-Base进行整体模型的微调效果最佳,但对于量化的T5-Large,我们使用了LoRA-Fine-Tuning-Aware量化,这有助于在LoRA权重的初始化下最小化量化误差。

Training Process

为了训练EM-VLM4AD,我们使用了DriveLM数据集DriveLM-Agent,这是最新的、最全面的自动驾驶多视图视觉问答(VQA)数据集,其中包含与安全任务相关的問題,如感知、规划、预测以及自车行为预测。我们使用了DriveLM数据集的训练集,它包含了来自NuScenes的656个不同场景,4,072个不同的多视图帧,以及377,983个不同的多视图/问答对。为了评估我们的方法,我们使用了DriveLM中交通场景的90%/5%/5%分割,以便评估我们的模型在未见情况下的表现。

与一次性训练我们模型的所有组件不同,我们采用了如图1所示的两阶段方法:

  • 在第一阶段,我们首先冻结图像块编码器和语言模型,只训练门控池化注意力和投影层。这强制多视图图像嵌入与语言模型期望的嵌入类型对齐。
  • 然后在最后阶段,我们只保持图像块编码器冻结,并开始对语言模型进行微调。

总结来说,图像块编码器始终冻结以保持从预训练中获取的通用图像信息,门控池化注意力和投影层始终被训练,而语言模型只在训练的最后阶段进行微调。

我们每个训练阶段执行六个周期,每个模型大约需要2.5天来完成。我们使用NVIDIA RTX 3090 Ti来训练T5-Large版本的EM-VLM4AD,使用V100 Google Colab实例来训练T5-Base版本的EM-VLM4AD。我们注意到,我们的模型可以适应单个T4 GPU实例,这使得可以在Google Colab上免费评估这些模型。对于超参数,我们使用了1e-4的学习率,0.05的权重衰减,指数学习率调度程序以及两种方法均为4的批量大小。

4 Experiments

本节展示了对EM-VLM4AD在定量、定性和计算性能方面的分析。我们使用了图像字幕任务中常用的以下指标来评估模型生成答案的质量:

  • BLEU-4:测量生成文本中有多少4-gram与参考文本中的匹配。
  • ROUGE-L:使用生成文本与真实文本之间的最长公共子序列来计算句子相似性分数。
  • METEOR:考虑精确匹配、词干提取、同义词和词语顺序来衡量模型输出与参考之间的对齐情况。
  • CIDEr:为了考虑生成文本与参考文本之间的词汇和语义相似性,CIDEr用相应的TF-IDF权重对n-gram进行加权。这有助于降低在所有示例中普遍出现的n-gram的重要性,这些n-gram可能不具有重要的含义。

对于计算分析,我们旨在分析我们模型的内存和计算效率,这些是在存在资源限制且推理效率至关重要的实时系统中的关键方面。

Quantitative Results

我们使用我们创建的未见交通场景的测试集来评估BLEU-4、ROUGE-L、METEOR和CIDEr分数。目前在DriveLM数据集上唯一存在的做法是DriveLM-Agent,这是BLIP-2的一个微调版本。由于这个模型尚未公开,且我们没有计算资源去执行BLIP-2的全精度LoRA训练,所以我们使用DriveLM-Agent在其私有评估集上提供的结果来基准测试我们的方法。

表1的结果显示,尽管模型参数至少减少了30亿,但EM-VLM4AD的两个版本在所有指标上都超过了DriveLM-Agent。在所有三个模型中,使用T5-Base的EM-VLM4AD版本是表现最佳的模型。

尽管8位量化T5-Large版本相比,使用T5-Base骨干网络的EM-VLM4AD表现出色,这可以归因于前者能够训练更大的参数集,这使得语言模型更好地适应输入的视觉-语言嵌入。相反,针对8位量化T5-Large LM的LoRA微调方法只改变了网络权重的3.4%。尽管我们确实尝试了对量化LM进行完全微调,但这导致了过拟合LM和模式崩溃。

与仅使用前视图帧作为输入的DriveLM-Agent不同,多帧集成是EM-VLM4AD相对于DriveLM-Agent表现优越的一个关键优势。我们的模型通过自定义多视图嵌入网络成功地跨多个视图聚合信息。此外,尽管某些LM执行的任务被定义为“涌现”的,需要更大的模型才能获得足够的结果,但我们的研究强调,在DriveLM数据集上学习执行VQA可以不增加模型复杂性来完成。因此,对于这项特定任务,简单地增加模型复杂性可能不会带来最佳改进。

Computational Analysis

我们还进行了计算分析,以查看EM-VLM4AD与其他用于自动驾驶的多模态LM的对比情况。具体来说,我们关注三个关键的计算指标:参数数量、浮点运算次数(FLOPs)以及内存(GB)。对于这些方法,图像编码器和LM是这些模型中最计算密集的部分,因此在计算这些指标时,我们只关注这两个方面。为了估计这些模型中每个模型的FLOP计数,我们使用A100 GPU上的fvcore FLOP计数器模块对DriveLM数据集中的示例进行估计。

对于我们要比较的方法,我们将图像编码器和LM的FLOPs相加。表2中的结果强调了EM-VLM4AD比其他方法更高效,它在内存、计算和模型参数方面的需求都更少。

值得注意的是,带有T5-Base骨干的EM-VLM4AD具有最少的参数和FLOP计数,而带有T5-Large骨干的EM-VLM4AD由于模型权重仅以8位存储,具有最小的内存需求。这些优化的模型设计选择使得EM-VLM4AD能够提供快速的推理时间,并需要较少的计算资源,这对于任何实时场景中实施的LM来说都是至关重要的属性。

Qualitative Results

图2和图3展示了由EM-VLM4AD生成的部分选定多帧答案。我们的模型能够准确回应与感知、识别交通代理行为、规划安全的自我车辆行为以及识别场景中重要的交通元素等多种问题。通过利用预训练的补丁嵌入网络和T5-LM中的通用知识,我们的系统能够回答涵盖端到端自动驾驶系统的一系列问题。

此外,EM-VLM4AD展示了理解DriveLM所采用的c-tag格式的能力,这种格式将交通对象编码为 <c,cam,x_{\text{pos}},y_{\text{pos}}>

采用如蒸馏等训练技术,结合对语法规则有更好理解的大型视觉-语言模型,将有助于这个小模型学习这些复杂规则。EM-VLM4AD在处理与行为相关的问题上也存在困难,例如提示是“预测自我车辆的行为”。向我们的网络输入多视角视频以增加时间上下文,将提高这类问题的结果,因为行为相关问题通常需要超过一帧来做出准确预测。

5 Conclusion

我们引入了EM-VLM4AD,这是一个轻量级的多帧视觉-语言模型,专为跨各种自动驾驶任务进行视觉问题解答而设计。与其他专为自动驾驶定制的语言模型相比,EM-VLM4AD在内存效率和计算要求方面具有显著优势,并且在DriveLM测试数据集上,在BLEU-4、METEOR、ROUGE和CIDEr指标上的表现超过了DriveLM-Agent的报道分数。EM-VLM4AD在回答各种自动驾驶问题方面表现出色,并通过我们的门控池化注意力层动态关注相关的相机视角,有效地整合了视角嵌入。

在未来的研究中,我们希望将我们的模型发展成一个能够从多视角视频输入生成响应的视频-语言模型,从而增强EM-VLM4AD处理与时间相关问题的能力。此外,结合多模态检索增强生成以提供上下文,可以使我们的模型从类似交通场景中提取洞察。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​VLSM-Adapter | 轻量级适配器,加速医学图像分割的视觉语言模型 !
2010年代初,当深度神经网络能够使用大规模图像或文本数据学习强大的表示时,深度学习在单领域任务(如图像分类或语言翻译)中取得了初步成功[5,10]。由于公开可用的规模化注释图像中缺少医学图像,因此广泛使用了迁移学习,其中网络使用从自然图像(如ImageNet[5])预训练获得的权重进行初始化,并在特定领域的较小数据集上进一步微调[30]。
AIGC 先锋科技
2024/07/08
3290
​VLSM-Adapter |  轻量级适配器,加速医学图像分割的视觉语言模型 !
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5640
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
随着VLMs规模的增大,用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来,由于在调整大规模预训练模型方面的显著成功,参数高效微调(PEFT)技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs,并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功,但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1)防御性能有限和2)计算和存储成本高昂。为了验证作者的观点,作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中,作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外,LoRA、LP和Aurora对对抗攻击并不鲁棒。
AIGC 先锋科技
2024/07/08
4760
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。
新智元
2023/09/09
6350
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
SOLVE框架:语言视觉协同与端到端网络的自动驾驶新范式
自动驾驶技术在过去二十年中取得了长足进步,但依然面临着学习复杂性、常识推理不足、可解释性差等核心挑战。香港中文大学、北京航空航天大学和滴滴出行Voyager Research团队提出的SOLVE框架,通过创新性地整合视觉语言模型(VLM)与端到端(E2E)学习网络,为这些挑战提供了系统性的解决方案。
一点人工一点智能
2025/07/13
970
SOLVE框架:语言视觉协同与端到端网络的自动驾驶新范式
​浅析多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的一些工作和个人的理解。
腾讯技术工程官方号
2023/11/01
4K0
​浅析多模态大模型的前世今生
NeurIPS 2023 | Cola:大语言模型是视觉推理协调器
视觉推理是一项至关重要的任务,它要求模型不仅要理解和解释视觉信息,还要应用高级认知来得出逻辑解决方案。该领域因其实现广泛智能应用的潜力而收到机器学习社区的极大关注,例如智能辅导系统、自动图像字幕和虚拟助手。为了有效地进行视觉推理,模型必须同时具备视觉感知能力和强大的逻辑推理能力。
用户1324186
2023/11/02
7690
NeurIPS 2023 | Cola:大语言模型是视觉推理协调器
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
9340
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
这就是最近研究人员提出的一种新模块化框架——LENS🔍(Language-Enhanced Neural System)的识别效果。
量子位
2023/08/05
5420
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
写在前面 视觉语言预训练提高了许多下游视觉语言任务的性能,例如:图文检索、基于图片的问答或推理。有朋友要问了,除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高,多模态预训练模型有什么实际应用呢? 为此,字节跳动 AI Lab Research 团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多, 仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推
量子位
2022/06/20
7730
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
近年来,自然语言处理(NLP)与计算机视觉的结合在多模态学习领域引发了重大创新和突破。特别是,如GPT-4V [30] 和 Gemini [39]等先进的视觉语言模型(VLMs)利用文本与视觉数据的协同作用,实现了对世界的先进理解和交互。凭借其强大的能力,它们在各种下游视觉语言任务中表现出色。
AIGC 先锋科技
2024/07/08
4350
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
TrafficVLM | 车辆第一视角多模态视频标题生成模型 ,AI City Challenge 2024 表现优异!
密集视频字幕模型最近的进展,这种模型能够精确地对连续视频流中的事件进行定位和描述,为该领域带来了新的机遇和挑战。这种能力在复杂的城市环境中尤为关键,因为行人与车辆及其他元素之间的动态交互可能导致事故发生。随着城市区域的不断发展,交通变得更加密集,自动且准确地从多角度识别和描述事故场景的能力变得至关重要。这不仅有助于紧急响应工作,也促进了更安全、更智能的交通解决方案的发展。
AIGC 先锋科技
2024/07/08
4170
TrafficVLM  | 车辆第一视角多模态视频标题生成模型 ,AI City Challenge 2024 表现优异!
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
6540
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
机器之心
2024/02/26
3400
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
自动驾驶(AV)在现实生活中部署需要详细规定和应用操作设计域(ODDs)。ODDs是指自动驾驶车辆在广泛测试和预计安全操作的地理位置的道路和环境条件。核心自动驾驶功能(如感知、规划、行为和定位)的性能很大程度上取决于操作环境。特别是,基于传感器的感知可能受到雪、雾、雨和低光照条件的影响。运动规划器生成的路径和速度轨迹也可以从操作域知识中受益,如道路是上坡还是下坡、是否铺砌、鹅卵石或未经铺设。在周围区域的工作区知识有重大的安全意义[1]。此外,AV在乡村地区、城市峡谷、隧道或公路上的驾驶对定位性能有显著影响[2],例如,因为全球导航卫星系统(GNSS)精度的变化。然而,现有的研究通常忽略了可以喂养和影响自动驾驶堆叠的通用的上下文识别需求。
AIGC 先锋科技
2024/09/20
2180
ContextVLM  使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
AIGC 先锋科技
2024/07/08
5220
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。
AIGC 先锋科技
2024/07/08
3880
普林斯顿 &  AWS & Apple 提出  RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
AnyMAL:一种高效、可拓展的任意模态增强语言模型
大语言模型(LLMs)因其庞大的规模和复杂性而著名,显著增强了机器理解和表达人类语言的能力。LLMs的进步也推动了视觉-语言领域的显著进展,缩小了图像编码器与LLMs之间的差距,结合了它们的推理能力。之前的多模态LLM研究主要集中在结合文本和另一种模态的模型上,如文本和图像模型,或专注于未开源的专有语言模型。为了解决这些挑战,本文介绍了一种新的多模态增强语言模型(AnyMAL),它是一系列多模态编码器的集合,这些编码器被训练用于将来自不同模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换为LLM的文本嵌入空间。通过扩展先前的工作,AnyMAL采用更强大的指令调优LLMs、更大的预训练模态编码器和先进的投影层来处理变长输入。
用户1324186
2024/03/26
3280
AnyMAL:一种高效、可拓展的任意模态增强语言模型
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
大型视觉语言(VL)模型已成为人工智能领域的一个关键研究领域,在多模态推理方面取得了显著进展。这些架构通过将视觉编码器与大型语言模型(LLM)通过翻译模块集成,在视觉和文本数据之间建立桥梁。这个模块将视觉编码器投影到文本嵌入空间。
AIGC 先锋科技
2024/12/19
1840
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
推荐阅读
​VLSM-Adapter | 轻量级适配器,加速医学图像分割的视觉语言模型 !
3290
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5640
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
4760
懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%
6350
SOLVE框架:语言视觉协同与端到端网络的自动驾驶新范式
970
​浅析多模态大模型的前世今生
4K0
NeurIPS 2023 | Cola:大语言模型是视觉推理协调器
7690
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
9340
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
5420
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
7730
Xmodel-VLM | 多模态视觉语言模型,解决高成本难题,实现高效部署 !
4350
TrafficVLM | 车辆第一视角多模态视频标题生成模型 ,AI City Challenge 2024 表现优异!
4170
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
6540
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
3400
ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
2180
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
5220
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
3880
AnyMAL:一种高效、可拓展的任意模态增强语言模型
3280
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
1840
相关推荐
​VLSM-Adapter | 轻量级适配器,加速医学图像分割的视觉语言模型 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档