超越图像检索：利用CLIP文本表示增强语言模型的视觉知识！

AIGC 先锋科技

发布于 2024-09-27 16:14:07

600

发布于 2024-09-27 16:14:07

文章被收录于专栏：AIGC 先锋科技

尽管自回归语言模型（LM）的表现令人印象深刻，但却有证据显示，由于报告偏差，这些模型缺乏视觉知识，即它们对视觉世界及其属性知之甚少。为了增强对视觉知识的 LM，现有解决方案通常依赖于显式图像，这需要耗时的检索或图像生成系统。本文表明，对于视觉增强 LM，并不需要显式图像。相反，作者使用著名 CLIP 多模态系统获取的视觉感知的文本表示。为了进行公平的比较，作者修改了使用图像检索和表示的视觉增强 LM，使其直接使用视觉感知的文本表示。作者将这个新模型命名为盲-VaLM。作者证明了盲-VaLM 在视觉语言理解（VLU）、自然语言理解（NLU）和语言模型任务上的表现与 VaLM 相当，尽管它比 VaLM 更高效且更简单。作者还证明，在作者预算的计算能力内扩展作者的模型（无论是增加模型还是预训练语料库大小），作者在所有评估任务上都超过了 VaLM。

1 Introduction

自回归语言模型是自然语言理解和生成的参考系统。然而，由于文本语料库中的报告偏差（Shwartz和Choi，2020年），语言模型缺少视觉知识，这意味着它们不了解作者世界的视觉属性，在预测真实物体的典型颜色、尺寸和形状等方面遇到困难，例如。Alper等人尝试通过为语言模型增加视觉知识来克服这些问题。但特别关注被 Mask 的语言模型（MLM）。MLM在文本生成方面的限制较大，其应用范围不如自回归语言模型广泛。VaLM 是自回归语言模型视觉增强的最新实例，它利用预热的CLIP多模态模型（Radford等人，2021年）进行图像检索和表达以提高下一个标记预测。为有效使用视觉信息，他们在基础LM中添加了一个融合层，允许文本标记在预测下一个标记之前关注视觉表示。他们证明，与VaLM相比，Blind-VaLM在视觉语言理解（VLU）的性能上有显著提升，同时保持了基础LM的NLU和文本生成能力。

然而，图像检索和表示具有很高的资源消耗，对训练和推理时间产生了显著影响。为了提高效率，作者建议直接使用CLIP模型得到的视觉表示，而不是图像检索和表示。作者把这个新的模型称为盲VaLM。

实验结果表明：

i）与VaLM相比，盲VaLM在训练和推理上快几个数量级；

ii）盲VaLM在VLU、NLU和LM任务上的表现与VaLM相当；

iii）保持VaLM的计算预算内，但增加预训练语料库或扩大基础LML的大小，盲VaLM可以改进VaLM在所有评估任务上的结果。

2相关工作

3 Blind-VaLM architecture

VFL（Visual Knowledge Fused Layer）架构由三个主要模块组成（图1左边）：

1）基于GPT2（Radford等人，2019年）的自回归长短时记忆（Backbone Auto-Regressive LM）；

2）基于CLIP（Radford等人，2021年）的文本到图像检索模块;

3 ) 简称为Fusion Layer的视觉知识融合层，用于将backbone LM的上下文文本表示与输入文本对应的图像表示进行融合。直觉上认为，检索到的视觉表示可以帮助更好地预测下一个标记。关于VFL架构和Fusion Layer的更多信息，请参见Wang等人（2022年）。

为了证明图像检索和表示并不是必须为backbone LM增加视觉知识的补充，作者对VFL架构进行了一次修改，用盲VFL代替了VFL架构中使用CLIP检索图像的图像表示，直接使用CLIP本身（见图1右边）的文本编码器表示（请参见1）。

文本语料库。作者采用原始VFL（Wang等人，2022年）的英语语料库CC-100作为所有模型的预训练文本语料库。由于计算资源的限制，作者只使用大约10.5B个标记进行预训练，这相当于大约19%的英语部分。

图像数据和检索模块。VFL需要一个图像数据库和一个图像检索模块。作者使用一个训练在原始VFL相同设置下的_FAISS_（Johnson等人，2019年）索引，该索引基于GPT2-Small架构（请参见附录A）。

预训练超参数。作者在相同设置下训练这两个模型，依照原VFL的配置进行。详细信息请参见附录A。

由于作者架构的效率提高，作者的模型需要的计算资源显著减少。盲式VL-M在大规模计算小时数上训练，而VaLM Baseline 则需要1.2K大小的计算小时数，这意味着作者的方法训练2.2倍更快。作者在8个A100 GPU的集群上训练所有作者的模型。

评估作者的模型在VLU、NLU和LM任务上进行评估（见附录B中的详细信息）。

VLU 作者关注物体的三个基本视觉属性：颜色、形状和大小。作者在以下数据集上评估颜色知识：记忆颜色（Norlund等人，2021年），颜色术语（Bruni等人，2012年）和ViComTe（颜色子集）(Zhang等人，2022)。作者在ShapeITC数据集上评估形状知识，以及RelativeSize（Bagherinezhad等人，2016年）和Things Not Written in Text（Liu等人，2022年）数据集上的大小知识。

在NLU 能力方面，作者在四个下游任务上评估：在SST-2和MPQA数据集上的两个情感分析任务(Socher等人，2013年；Wiebe等人，2005年)，以及在AGNews和DBPedia数据集上的两个主题分类任务(Auer等人，2007年；Zhang等人，2015年)。此外，作者通过测量Wikitext-103和Lambda数据集上的困惑度来评估纯语言建模能力。对于Lambda，作者也报告了预测每个句子最后词的准确性，这是根据原始VaLM工作的。

扩展 盲式VL-M的。请注意，由于盲式VaLM不需要实际图像检索步骤，所以它在训练和推理时间上都显著更高效。利用增加的效率，作者在VaLM Baseline 计算预算内的两个方式扩展了盲式VaLM。扩展模型大小。作者将盲式VaLM-Medium训练，即将LM后端架构切换到GPT2-Medium而不是GPT2-Small。见附录A的详细信息。这个更大的模型在595个计算小时上进行了训练，仍处于VaLM Baseline 的计算预算内。

扩展预训练计算 作者训练 **盲式VaLM+**，仅将 Baseline 盲式VaLM进行更长时间的预训练，直到达到总共88255步，这相当于23.1亿个 Token （42%的CC-100）。然而，由于作者方法计算的提高，这个模型在总计算上与原始VaLM Baseline 相匹配，只需要总共1.17K的计算小时数来训练。

5 结果

盲式VaLM在VLU、NLU和LM任务上与VaLM相匹配。表1显示了在相同设置上训练的盲式VaLM和VaLM的结果，如附录B所述。作者观察到作者的方法在VLU任务上与原始VaLM匹配良好，以及在NLU和LM任务上，它比VaLM平均得分高1.18个点，在6/7个NLU & LM任务上优于VaLM。此外，这支持作者的假设，即实际上获取和编码图像不是视觉增强的必需步骤，因为已经视觉基础的文本表示足以同等有效地发挥。此外，如附录B中所述，盲式VaLM训练速度快2.2倍，因为它跳过了耗时的向量检索步骤。在推理时间，速度提升更大，因为生成不是计算限制，而检索延迟起着更大作用。

盲式VaLM的表现优于VaLM，当在相同的计算预算内进行训练。表2展示了两种扩展的盲式VaLM变体的结果，是通过扩展预训练计算或模型大小获得的，如SS4中描述的那样。作者观察到两种变体在相同的计算预算内都超过了VaLM。例如，在盲式VaLM-Medium的情况下，作者在VLU任务上平均比VaLM好了2.2个点，同时在6/7个NLU & LM任务上都超过了VaLM。

6 Conclusions

在这项工作中，作者测试了一个假设，即显式图像检索并非增强视觉语言模型所必需的。为此，作者训练了一个修改过的VaLM（Wang等人，2022）的变体，作者称之为盲VaLM，将检索到的图像编码向量替换为来自基于视觉的CLIP编码器（Radford等人，2021）获得的文本嵌入。

作者的结果表明，盲VaLM在相同数据上训练时，与VaLM匹配，训练起来却显著更有效。此外，在保持VaLM计算预算内扩展作者的模型时，作者的方法超越了VaLM。总的来说，这些结果表明，仅利用已经具有视觉基础的CLIP编码器提供的文本编码就可以获得与VaLM在视觉任务上相同的收益，支持作者的假设，实际上图像检索并非至关重要。

这些结果为视觉增强语言模型的研究开辟了新的道路，超越了基于图像检索的范式。作者在这项工作中得出的结论使得未来工作的视觉增强更为高效，从而能实现更广泛的探索空间。