CLIP嵌入在广泛的计算机视觉任务中已经展示了卓越的性能。然而,这些高维、稠密的向量表示并不容易被解释,限制了它们在需要透明度的下游应用中的实用性。 在这项工作中,作者实证显示了CLIP的潜在空间具有高度的结构性,因此CLIP表示可以分解为它们的基础语义成分。作者利用这种理解提出了一种新颖的方法,稀疏线性概念嵌入(SpLiCE
),用于将CLIP表示转换为人类可解释的概念的稀疏线性组合。与之前的工作不同,SpLiCE不需要概念标签,可以在事后应用。 通过使用多个真实世界数据集的广泛实验,作者验证了SpLiCE输出的表示可以解释甚至替代传统的密集CLIP表示,在保持等效的下游性能的同时显著提高它们的可解释性。作者还展示了SpLiCE表示的几个用例,包括检测虚假相关性、模型编辑以及量化数据集中的语义变化。 代码:https://github.com/AI4LIFE-GROUP/SpLiCE
自然图像包含了复杂的语义信息,比如它们所包含的物体、所描绘的场景、执行的动作以及它们之间的关系。基于视觉数据的机器学习模型旨在将这些语义信息编码在它们的表达中,以辅助各种下游任务,例如物体分类、场景识别或动作识别。然而,通常很难在模型表达中强制执行这些语义的显式编码,而且在事后解释这些语义更加困难。此外,这些模型表达可能是脆弱的,编码的是特定于个别数据集的独特模式,而不是高级的语义信息。多模态模型已被提出来作为解决这种脆弱性问题的一种潜在方案,像CLIP的方法已经在实践中被发现能够提供性能高、语义丰富的图像数据表达。这些表达的丰富性从它们在各种任务上的高性能可以看出,如零样本分类和图像检索、图像配字以及图像生成。然而,尽管它们性能出色,目前尚不清楚如何量化它们密集表达中包含的语义内容。在这项工作中,作者回答了这个问题:作者如何将这些CLIP嵌入在它们编码的底层数据的语义方面进行解释?
在诸如概念瓶颈模型、解耦表示学习和机械可解释性等领域的现有机器学习文献中,已经提出了各种方法来理解表示背后的语义。然而,这些方法通常需要一组预定义的概念、带有概念标签的数据,或者依赖于定性的可视化,这可能不可靠。与这些研究类似,作者旨在恢复反映输入底层语义的表示。然而,与这些工作不同,作者提出了一种事后的方法,不需要概念标签、训练或对可视化的定性分析。
在这项工作中,作者利用了CLIP嵌入的高度结构化和多模态特性来提高可解释性,并提出了SpLiCE方法,该方法将CLIP表示分解为一系列人类可解释的、具有语义意义的概念。
作者整体贡献包括:
在本节中,作者旨在回答这个问题:在什么条件下,CLIP表示可以分解为稀疏的语义表示?为了回答这个问题,作者需要分析CLIP的特性以及底层数据的特性。
符号表示。 设
和
分别为图像和文本数据。给定CLIP图像编码器
和文本编码器
,作者在
中定义CLIP表示为
和
。作者的方法使用字典学习来近似
,通过一个固定概念词汇表
的概念分解
。作者定义从
和
重构的
结果为
。
作者方法的总目标是近似于
,使得
是非负且稀疏的。在本节中,作者将形式化这一目标何时是可能的。作者首先考虑一个耦合图像和文本样本的数据生成过程。具体来说,作者通过一个由
维潜在概念向量
和一个随机向量
参数化的生成过程来建模。
在这里,
是关于语义概念的先验分布,
是关于非语义概念的先验分布(例如图像中的摄像机方向和照明或文本的句子结构),而
和
是从潜在变量
到数据的映射。
此外,作者假设具有唯一的可逆性,即对于每一个
,
,都存在唯一的预图像
生成它。在这里,每个坐标
编码了第
个概念在底层数据中的普遍程度,其中概念是可以用单个英文单词描述的语义信息。在这个生成模型下,总共可以编码
个不同的概念通过输入,每个坐标
对应一个概念。
请注意,这些数据生成过程和潜在概念向量不能直接被观测到。作者现在确定了一个关键属性,即概念空间中数据的稀疏性。
性质 3.1:在概念空间中数据是稀疏的。换句话说,对于某些
,作者有
。
下一个属性是最关键的,它提出CLIP模型在概念上是线性的,这与线性表示假设密切相关。此外,作者认为CLIP在很大程度上对图像中的“非语义”因素
不变。例如,从两个角度拍摄的猫的嵌入应当是相同的。为了在作者的背景下形式化这一点,请回忆CLIP的图像和文本编码器分别由
和
给出。
现在考虑
,以及类似的
。注意,尽管这些组合映射
和
在一般情况下可能是非线性的,但以下性质表明这些实际上是
的线性函数,并且与
无关。
属性3.2:CLIP编码器是(1)与
无关的,即,
以及(2)在概念空间
中线性,即
和
关于
是线性的。
请注意,这个假设并不要求
必须是线性的,而是要求它与底层的生成模型
的复合结果是一个线性映射。这意味着CLIP编码器
对潜在的生成过程进行了一次“反转”,达到一个线性变换的程度。这个假设与计算机视觉系统必须表现得像“逆向图形”模型的观点是一致的。在附录E.1中,作者提供了一个玩具级设置中CLIP这种线性的证据。
作者现在提出了另一个假设,连接CLIP的图像和文本表示,要求它们是相等的。这大约是由CLIP的训练目标所强制执行的,该目标要求图像和文本表示进行对齐。
属性3.3:对于相同的潜在概念向量
,CLIP的图像和文本表示相等,即,
。
作者的最终假设涉及概念空间中基向量的计算。这些基向量由
给出,是唯一的一个热向量,在第
个坐标处为1。考虑这些“基础”概念在文本空间中的映射。由于概念可以用单个英文单词描述,不涉及任何语法结构或短语,因此基向量到文本的映射与无关语义的噪声无关。以下假设表明,这些是描绘该概念的单独单词的字符串。
属性3.4:基础概念
在文本空间中映射到单个词语,即
是表示该概念的单一词语的文本字符串。
在这个假设下,如果坐标
对应于猫的概念,那么
"猫"。现在考虑这些“基础”概念在文本空间的编码,即,
。也让作者定义概念字典
作为文本概念基础的矩阵。因此,概念字典
可以等价地表示为一个单词序列,例如:[猫,海洋,天空,...],在文本空间编码这些概念。给定这些假设,作者可以写出关于CLIP表示的以下陈述。
定理3.5:鉴于性质4.1 - 4.4,CLIP图像嵌入
可以表示为文本嵌入的稀疏线性组合,即,
其中
,而
,这是从单个词的词嵌入中获得的概念字典,如上所述。
证明概要:性质3.1和3.2共同表明
可以被写成图像嵌入的稀疏线性组合,而性质3.3和3.4有助于将这一结果转移到单个单词的文本嵌入中。作者将在附录C中提供完整的证明。
因此,作者已经证明了在属性3.1-3.4的范围内,对于CLIP及其数据生成过程的自然假设下,CLIP模型具有稀疏分解的特性。这里的 关键思想是属性3.2,它要求模型在概念空间中表现出线性行为。在下一节中,作者提出了一种执行这种稀疏分解的方法。
在本节中,作者介绍了SpLiCE,一种将CLIP的图像表示表达为概念字典的稀疏、非负线性组合的方法。在以下的小节中,作者将概述作者的设计选择,包括在4.1节中作者如何选择概念字典,在4.2节中作者如何弥合CLIP图像与文本表示之间的模态差距,以及在4.3节中作者的分解方法。
自然语言是一种直观、可解释且紧凑的语义信息交流媒介。因此,作者选择用自然语言表达的语义概念组合来表示CLIP嵌入中的语义内容。作者将此形式化为一个自然语言嵌入的概念词汇表上的字典学习问题,在这里,作者定义概念为一个可以通过单个英文单词表达的语义视觉单元。
先前的研究发现,现有的基于概念的解释方法对所选的概念词汇非常敏感,而且对于像传统概念瓶颈模型这类方法的一个普遍批评是,它们依赖于对当前任务精心指定和专家选择的概念集。此外,概念集的大小与该方法提供的可解释性之间存在直接的权衡,因为包含太多概念的解释对人类来说难以理解。
然而,由于作者在概念分解中实施了稀疏性,作者可以选择一个大的、过度完整的词汇表,它能够很好地覆盖CLIP的概念空间,因此对专家和任务是无关的。为了构建作者的词汇表,作者考虑了LAION-400m数据集中的所有文本标题中的一词英文标记 。作者过滤掉标题中任何不适宜的内容,并选择最常见的前10000个词作为作者的概念词汇。
为了将图像分解为文本概念,作者必须确保图像的表示能够涵盖作者的概念集。然而,Liang等人(2022年)指出在CLIP中存在一个模态差距,即图像和文本嵌入可能会在单位球体上的非重叠空间中存在。从经验上,作者发现CLIP的图像和文本嵌入分布在两个锥体上,因为MSCOCO图像和文本嵌入之间的成对余弦相似性分布集中在正值上(图3)。
为了纠正这一点,作者用估计的MSCOCO图像锥体均值(
)对CLIP图像进行均值中心化,并在均值中心化的概念词汇表(
)上计算分解。请注意,在中心化后需要重新标准化嵌入以确保它们位于单位球体上。如果作者希望将分解转换回密集表示(
),作者通过将图像均值加回并再次标准化,来对标准化密集嵌入
进行去中心化,以确保它们位于原始CLIP嵌入(
)的相同锥体上。
作者在对密集的CLIP表示进行语义分解时考虑两个要求:_稀疏性_和_非负性_。大量研究已经表明,稀疏性和非负性在表示中产生更大的可解释性,因为稀疏集可以被一次性理解,而负面的语义仍然不直观且难以概念化。
这激励了作者的优化问题:使用一组稀疏的、非负的概念组合来重构CLIP图像嵌入。令
为归一化操作。给定一组概念词汇表
,
以及一个居中的CLIP图像嵌入。
作者致力于寻找最稀疏的解,该解能够为作者提供一个余弦相似度分数至少为
的结果,其中
是一个非常小的值。
按照标准做法,作者放宽了
约束,并将其重新表述为最小化均方误差(MSE)并加上
正则项,从而构建了方程(1)的以下凸松弛形式2:
请注意,
的线性特性允许作者解释坐标
的大小作为概念
在图像
中的显著程度。将作者优化问题的解定义为
,那么作者重建的嵌入接着就是。
在本节中,作者评估了作者的方法,以确保增加的可解释性对下游任务性能的损失最小,并准确反映表示的语义内容。
模型。 本文所示的所有实验都是使用OpenCLIP ViT-B/32模型进行的,附录13中提供了额外模型的结果。对于所有的零样本分类任务,作者使用提示模板“一张{}的照片”。
数据集。 作者的实验使用了CIFAR100,MIT States,CelebA,MSCOCO,以及ImageNet-Val。
分解。 对于所有涉及概念分解的实验,作者使用了sklearn的Lasso求解器,并设置了非负性标志和
惩罚,得到了具有
范数为15-30(大多数数据集约为0.2)的解,除非另有说明,这与Ramaswamy等人(2022年)发现的32个概念的阈值一致。作者使用了一个从第4.1节中描述的LAION标记子集中选择的概念词汇。正如第4.2节所述,图像和概念都进行了中心化处理,其中用于中心化的图像均值是在MSCOCO训练集上计算的,而概念均值是在作者选择的词汇上计算的。
作者通过评估SpLiCE分解表示与CLIP嵌入之间的重建误差、SpLiCE的零样本性能以及各种嵌入的检索性能来评估其表现。作者将从作者的语义概念词汇生成的分解性能与随机词汇以及通过学习得到的词汇字典生成的分解性能进行了比较。所有词汇均包含10,000个概念,其中随机词汇是从高斯分布中抽取并归一化到超球面上的。通过使用Fast Iterative Shrinkage-Thresholding Algorithm (FISTA) Beck和Teboulle [2009]的方法在学习MSCOCO图像语料库或标题语料库的最优字典来生成学习得到的词汇。
在图4中,作者可视化了使用不同字典的图像分解余弦重建和零样本准确度。作者发现,尽管在余弦相似度方面,作者的语义概念字典不如学习到的字典那样能很好地重建样本,但在零样本分类任务上,它明显优于随机和学习到的字典分解。特别是,稀疏度较低的分解(小于5个非零概念)仍然提供了足够的语义信息,使得CIFAR100和MIT States图像的分类性能与原始CLIP嵌入相似。
作者注意到,在ImageNet上的性能不如其他数据集,因为许多ImageNet类别是动物物种,它们不能很容易地用几个单一单词的语义概念来描述(例如“波士顿牛”)。正如图4中的虚线黄色曲线所示,将这些类别标签添加到作者的概念字典中,可以显著提高性能。
作者注意到有趣的是,在图像上学习到的概念字典在余弦重建方面优于在文本上学习到的字典,但在高稀疏度下的零样本性能则相反。作者在附录中评估了检测性能(表3、4)。
作者最终在文本到图像以及图像到文本的检索任务上测试了SpLiCE嵌入的表现。作者评估了在MSCOCO的各个1024个样本子集上的检索性能,并评估了相反模态的 top-k 最接近嵌入的召回性能。
作者在图5中可视化了文本到图像检索的
,而在附录中的图像到文本检索则展示
(图12)。
作者注意到,虽然在这些分解在高稀疏性下的表现并不能完全匹配密集CLIP嵌入的性能,但是内存减少一个数量级 (
范数约为50)仅导致召回率下降大约15%。
作者定性评估了SpLiCE分解在衡量其所代表图像的语义内容方面的表现。在图2中,作者提供了来自MSCOCO的六个样本分解及其相应的标题。作者展示了每个图像的前六个概念,并发现它们通常能很好地描述图像的语义。因此,作者建议这些分解可以用作图像标签器,或者简而言之,当在下游任务(如分类)中使用CLIP嵌入时,可以作为基于概念的对CLIP嵌入语义内容的解释。
虽然概念分解对于解释任何依赖CLIP嵌入的系统预测和决策非常有用,但作者还建议这种方法可以用来更好地理解和总结数据集。通过分解整个类别或整个数据集,作者可以找到数据的潜在语义分布。
作者在图6中可视化了三个ImageNet类别('Bakery', 'Balloon', 'Indian elephant'和'African elephant')中最常见的7个概念。这些分解为类别本身提供了有趣的洞察;在“Bakery”类别中第二常见的是“cupcake”,实际上作者发现测试类别中有7/50张照片是cupcake的特写照片。“Balloon”类别并不是指充气的派对气球,而是指热气球,这从“parachute”和“flying”这些概念可以得知。
对于两个大象类别,作者可以看到分解中包含了关于背景的信息,比如“jungle”、“kerala”和“africa”,从而编码了这两个物种之间的细微差别。
在本节中,作者展示了使用SpLiCE进行的三个案例研究:
SpLiCE技术的一个重要激励应用是能够自动语义总结数据集。作者发现这对于审查数据集中的偏见或伪相关特别有帮助,否则这需要既包含子群组又包含伪相关特征的标签。作者提出了一个CIFAR100数据集中两个成人类别:“男人”和“女人”的案例研究。
在对这些类别进行分解时,作者发现“胸罩”和“泳装”是'女人'类别中最常见的十个概念中的两个。另一方面,'男人'类别中在前50个最活跃概念中出现的唯一与服装相关的概念是{"制服","燕尾服","服装"}。作者在图7中可视化了与游泳者和内衣相关概念{"泳装","胸罩","短裤","内衣"}的概念权重直方图,跨越了训练集和测试集,发现这些概念对于女性比男性更有可能被激活。
这一现象通过手动检查CIFAR100数据集得到了确认,在'女人'测试类别中至少有8张100张图像展示了穿比基尼的女性,揭示了这一流行数据集中的刻板印象偏见。
概念分解的另一个关键应用是使用它们来隔离特定的信息,从而实现细粒度的干预。这种干预可以直接在嵌入上进行,作者可以将一个概念清零,并重构不包含该信息的输入,或者基于分解构建的 Prob 上,作者可以手动改变概念与类别标签之间的关系。
考虑一个在CelebA图像上训练的面部识别分类器。作者希望这个分类器在对眼镜的存在具有不变性,但作者不确定是否某些特定个体与眼镜的出现之间存在虚假的相关性。因此,作者希望从图像表达中移除“眼镜”或“眼镜”这一概念,使得它们不能被用于下游的分类任务。
作者可以通过简单地将SpLiCE分解中放置在这些概念上的权重清零来实现这一点,并评估零样本分类器是否能检测到眼镜的存在。作者在'ZS SpLiCE'和'干预 SpLiCE'行分别报告了在干预前后零样本分类器识别“眼镜”这一概念的绩效。Vanilla CLIP的绩效作为 Baseline 在'ZS CLIP'中给出。作者看到,移除这一干预将零样本分类器的准确度从0.88降低到0.69(其中0.50是随机的)。
作者还评估了在线性 Prob 上的干预,其中作者消除了概念的 Prob 权重,并观察到在发明之后,眼镜 Prob 的准确度从0.88下降到0.59。作者提供了性别分类的绩效作为面部识别的代理,并观察到对于零样本和检测任务,对“眼镜”的干预对性别分类的影响最小。
作者使用SpLiCE进行了一个最终的案例研究,以监测分布偏移。这可以帮助识别训练与推理分布之间的差异,或者评估连续采集的数据集随时间的变化。在这个实验中,作者考虑了斯坦福汽车数据集,其中包含了1991年至2012年的汽车照片,以及它们的制造商和年份标签。通过分解每年汽车的照片,作者可以查看分布每年的变化情况。
在图8中,作者可视化了分解中“敞篷车”和“黄色”概念的权重,以及每年实际为敞篷车或黄色的汽车所占的百分比。请注意右侧的y轴,它对应于给定概念
的权重与所有概念权重之和
的比例,并没有有意义的单位或刻度。作者发现,GT概念流行趋势通常与预测/分解的概念非常吻合,这使作者能够可视化哪些年份敞篷车或黄色汽车受欢迎,或与其他年份相比处于非分布状态。
在这项工作中,作者展示了CLIP嵌入中的信息可以通过简单语义概念的线性组合来近似,这使得作者可以用稀疏、非负的字典学习来解释表示。作者提出了SpLiCE方法,将CLIP的密集、难以解释的嵌入转化为人类可理解的稀疏概念分解。
作者实证展示了SpLiCE改进的可解释性并不会牺牲下游任务的性能,并为SpLiCE提供了三个具体的使用案例:虚假相关检测、模型干预与编辑,以及分布偏移监控,展示了使用具有已知语义内容的可解释嵌入的好处。作者强调,SpLiCE嵌入不仅可以替代密集的CLIP嵌入,也可以作为对它们的事后解释。
局限性。在本研究中,作者仅将一个英文单词的概念纳入到作者的概念词汇中;然而,有许多概念无法在那些限制下被描述,例如“奶油鸡”。此外,作者只考虑了线性分解,这是因为其凸性及潜在的附加可解释性。未来的研究可以考虑使用非线性分解求解器以获得更精确的分解。SpLiCE还使用了
惩罚作为
正则化的松弛,但未来的工作可以考虑其他松弛方法,甚至是二进制的概念权重。
与可解释性领域中的许多工作相似,作者的工作提供了对模型行为的更深入了解,包括但不限于它们持续推广的更广泛的隐性偏见以及个别样本上的错误。作者认为这对于CLIP尤为重要,因为CLIP被广泛应用于各种广泛使用的应用中。
作者希望从这种可解释性中获得的理解能使用户在如何与使用CLIP互动方面做出更明智的决策,无论他们对机器学习或在使用CLIP的任务中的领域专业知识熟悉程度如何。作者还强调,SpLiCE可以作为类似于可视化工具,用于大规模探索和总结数据集,从而更容易审核数据集和模型中的虚假相关性和偏见。
[1].Interpreting CLIP with Sparse Linear.
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有