前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !

超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !

作者头像
AIGC 先锋科技
发布2024-09-27 16:14:07
600
发布2024-09-27 16:14:07
举报
文章被收录于专栏:AIGC 先锋科技

尽管自回归语言模型(LM)的表现令人印象深刻,但却有证据显示,由于报告偏差,这些模型缺乏视觉知识,即它们对视觉世界及其属性知之甚少。为了增强对视觉知识的 LM,现有解决方案通常依赖于显式图像,这需要耗时的检索或图像生成系统。本文表明,对于视觉增强 LM,并不需要显式图像。 相反,作者使用著名 CLIP 多模态系统获取的视觉感知的文本表示。为了进行公平的比较,作者修改了使用图像检索和表示的视觉增强 LM,使其直接使用视觉感知的文本表示。作者将这个新模型命名为盲-VaLM。 作者证明了盲-VaLM 在视觉语言理解(VLU)、自然语言理解(NLU)和语言模型任务上的表现与 VaLM 相当,尽管它比 VaLM 更高效且更简单。作者还证明,在作者预算的计算能力内扩展作者的模型(无论是增加模型还是预训练语料库大小),作者在所有评估任务上都超过了 VaLM。

1 Introduction

自回归语言模型是自然语言理解和生成的参考系统。然而,由于文本语料库中的报告偏差(Shwartz和Choi,2020年),语言模型缺少视觉知识,这意味着它们不了解作者世界的视觉属性,在预测真实物体的典型颜色、尺寸和形状等方面遇到困难,例如。Alper等人尝试通过为语言模型增加视觉知识来克服这些问题。但特别关注被 Mask 的语言模型(MLM)。MLM在文本生成方面的限制较大,其应用范围不如自回归语言模型广泛。VaLM 是自回归语言模型视觉增强的最新实例,它利用预热的CLIP多模态模型(Radford等人,2021年)进行图像检索和表达以提高下一个标记预测。为有效使用视觉信息,他们在基础LM中添加了一个融合层,允许文本标记在预测下一个标记之前关注视觉表示。他们证明,与VaLM相比,Blind-VaLM在视觉语言理解(VLU)的性能上有显著提升,同时保持了基础LM的NLU和文本生成能力。

然而,图像检索和表示具有很高的资源消耗,对训练和推理时间产生了显著影响。为了提高效率,作者建议直接使用CLIP模型得到的视觉表示,而不是图像检索和表示。作者把这个新的模型称为盲VaLM。

实验结果表明:

i)与VaLM相比,盲VaLM在训练和推理上快几个数量级;

ii)盲VaLM在VLU、NLU和LM任务上的表现与VaLM相当;

iii)保持VaLM的计算预算内,但增加预训练语料库或扩大基础LML的大小,盲VaLM可以改进VaLM在所有评估任务上的结果。

2相关工作

3 Blind-VaLM architecture

VFL(Visual Knowledge Fused Layer)架构由三个主要模块组成(图1左边):

1)基于GPT2(Radford等人,2019年)的自回归长短时记忆(Backbone Auto-Regressive LM);

2)基于CLIP(Radford等人,2021年)的文本到图像检索模块;

3 ) 简称为Fusion Layer的视觉知识融合层,用于将backbone LM的上下文文本表示与输入文本对应的图像表示进行融合。直觉上认为,检索到的视觉表示可以帮助更好地预测下一个标记。关于VFL架构和Fusion Layer的更多信息,请参见Wang等人(2022年)。

为了证明图像检索和表示并不是必须为backbone LM增加视觉知识的补充,作者对VFL架构进行了一次修改,用盲VFL代替了VFL架构中使用CLIP检索图像的图像表示,直接使用CLIP本身(见图1右边)的文本编码器表示(请参见1)。

文本语料库。作者采用原始VFL(Wang等人,2022年)的英语语料库CC-100作为所有模型的预训练文本语料库。由于计算资源的限制,作者只使用大约10.5B个标记进行预训练,这相当于大约19%的英语部分。

图像数据和检索模块。VFL需要一个图像数据库和一个图像检索模块。作者使用一个训练在原始VFL相同设置下的_FAISS_(Johnson等人,2019年)索引,该索引基于GPT2-Small架构(请参见附录A)。

预训练超参数。作者在相同设置下训练这两个模型,依照原VFL的配置进行。详细信息请参见附录A。

由于作者架构的效率提高,作者的模型需要的计算资源显著减少。盲式VL-M在大规模计算小时数上训练,而VaLM Baseline 则需要1.2K大小的计算小时数,这意味着作者的方法训练2.2倍更快。作者在8个A100 GPU的集群上训练所有作者的模型。

评估 作者的模型在VLU、NLU和LM任务上进行评估(见附录B中的详细信息)。

VLU 作者关注物体的三个基本视觉属性:颜色、形状和大小。作者在以下数据集上评估颜色知识:记忆颜色(Norlund等人,2021年),颜色术语(Bruni等人,2012年)和ViComTe(颜色子集)(Zhang等人,2022)。作者在ShapeITC数据集上评估形状知识,以及RelativeSize(Bagherinezhad等人,2016年)和Things Not Written in Text(Liu等人,2022年)数据集上的大小知识。

NLU 能力方面,作者在四个下游任务上评估:在SST-2和MPQA数据集上的两个情感分析任务(Socher等人,2013年;Wiebe等人,2005年),以及在AGNews和DBPedia数据集上的两个主题分类任务(Auer等人,2007年;Zhang等人,2015年)。此外,作者通过测量Wikitext-103和Lambda数据集上的困惑度来评估纯语言建模能力。对于Lambda,作者也报告了预测每个句子最后词的准确性,这是根据原始VaLM工作的。

扩展 盲式VL-M的。请注意,由于盲式VaLM不需要实际图像检索步骤,所以它在训练和推理时间上都显著更高效。利用增加的效率,作者在VaLM Baseline 计算预算内的两个方式扩展了盲式VaLM。扩展模型大小。作者将盲式VaLM-Medium训练,即将LM后端架构切换到GPT2-Medium而不是GPT2-Small。见附录A的详细信息。这个更大的模型在595个计算小时上进行了训练,仍处于VaLM Baseline 的计算预算内。

扩展预训练计算 作者训练 **盲式VaLM+**,仅将 Baseline 盲式VaLM进行更长时间的预训练,直到达到总共88255步,这相当于23.1亿个 Token (42%的CC-100)。然而,由于作者方法计算的提高,这个模型在总计算上与原始VaLM Baseline 相匹配,只需要总共1.17K的计算小时数来训练。

5 结果

盲式VaLM在VLU、NLU和LM任务上与VaLM相匹配。表1显示了在相同设置上训练的盲式VaLM和VaLM的结果,如附录B所述。作者观察到作者的方法在VLU任务上与原始VaLM匹配良好,以及在NLU和LM任务上,它比VaLM平均得分高1.18个点,在6/7个NLU & LM任务上优于VaLM。此外,这支持作者的假设,即实际上获取和编码图像不是视觉增强的必需步骤,因为已经视觉基础的文本表示足以同等有效地发挥。此外,如附录B中所述,盲式VaLM训练速度快2.2倍,因为它跳过了耗时的向量检索步骤。在推理时间,速度提升更大,因为生成不是计算限制,而检索延迟起着更大作用。

盲式VaLM的表现优于VaLM,当在相同的计算预算内进行训练。表2展示了两种扩展的盲式VaLM变体的结果,是通过扩展预训练计算或模型大小获得的,如SS4中描述的那样。作者观察到两种变体在相同的计算预算内都超过了VaLM。例如,在盲式VaLM-Medium的情况下,作者在VLU任务上平均比VaLM好了2.2个点,同时在6/7个NLU & LM任务上都超过了VaLM。

6 Conclusions

在这项工作中,作者测试了一个假设,即显式图像检索并非增强视觉语言模型所必需的。为此,作者训练了一个修改过的VaLM(Wang等人,2022)的变体,作者称之为盲VaLM,将检索到的图像编码向量替换为来自基于视觉的CLIP编码器(Radford等人,2021)获得的文本嵌入。

作者的结果表明,盲VaLM在相同数据上训练时,与VaLM匹配,训练起来却显著更有效。此外,在保持VaLM计算预算内扩展作者的模型时,作者的方法超越了VaLM。总的来说,这些结果表明,仅利用已经具有视觉基础的CLIP编码器提供的文本编码就可以获得与VaLM在视觉任务上相同的收益,支持作者的假设,实际上图像检索并非至关重要。

这些结果为视觉增强语言模型的研究开辟了新的道路,超越了基于图像检索的范式。作者在这项工作中得出的结论使得未来工作的视觉增强更为高效,从而能实现更广泛的探索空间。

参考

[1].Improving the Efficiency of Visually Augmented Language Models.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2相关工作
  • 3 Blind-VaLM architecture
  • 5 结果
  • 6 Conclusions
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档