Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >哈佛大学提出SpLiCE | 证实CLIP潜在空间的高度结构性,并提出了稀疏线性嵌入替代密集表示

哈佛大学提出SpLiCE | 证实CLIP潜在空间的高度结构性,并提出了稀疏线性嵌入替代密集表示

作者头像
集智书童公众号
发布于 2024-03-01 09:23:12
发布于 2024-03-01 09:23:12
1.1K0
举报
文章被收录于专栏:集智书童集智书童

CLIP嵌入在广泛的计算机视觉任务中已经展示了卓越的性能。然而,这些高维、稠密的向量表示并不容易被解释,限制了它们在需要透明度的下游应用中的实用性。 在这项工作中,作者实证显示了CLIP的潜在空间具有高度的结构性,因此CLIP表示可以分解为它们的基础语义成分。作者利用这种理解提出了一种新颖的方法,稀疏线性概念嵌入(SpLiCE

\mathscr{P}

),用于将CLIP表示转换为人类可解释的概念的稀疏线性组合。与之前的工作不同,SpLiCE不需要概念标签,可以在事后应用。 通过使用多个真实世界数据集的广泛实验,作者验证了SpLiCE输出的表示可以解释甚至替代传统的密集CLIP表示,在保持等效的下游性能的同时显著提高它们的可解释性。作者还展示了SpLiCE表示的几个用例,包括检测虚假相关性、模型编辑以及量化数据集中的语义变化。 代码:https://github.com/AI4LIFE-GROUP/SpLiCE

1 Introduction

自然图像包含了复杂的语义信息,比如它们所包含的物体、所描绘的场景、执行的动作以及它们之间的关系。基于视觉数据的机器学习模型旨在将这些语义信息编码在它们的表达中,以辅助各种下游任务,例如物体分类、场景识别或动作识别。然而,通常很难在模型表达中强制执行这些语义的显式编码,而且在事后解释这些语义更加困难。此外,这些模型表达可能是脆弱的,编码的是特定于个别数据集的独特模式,而不是高级的语义信息。多模态模型已被提出来作为解决这种脆弱性问题的一种潜在方案,像CLIP的方法已经在实践中被发现能够提供性能高、语义丰富的图像数据表达。这些表达的丰富性从它们在各种任务上的高性能可以看出,如零样本分类和图像检索、图像配字以及图像生成。然而,尽管它们性能出色,目前尚不清楚如何量化它们密集表达中包含的语义内容。在这项工作中,作者回答了这个问题:作者如何将这些CLIP嵌入在它们编码的底层数据的语义方面进行解释?

在诸如概念瓶颈模型、解耦表示学习和机械可解释性等领域的现有机器学习文献中,已经提出了各种方法来理解表示背后的语义。然而,这些方法通常需要一组预定义的概念、带有概念标签的数据,或者依赖于定性的可视化,这可能不可靠。与这些研究类似,作者旨在恢复反映输入底层语义的表示。然而,与这些工作不同,作者提出了一种事后的方法,不需要概念标签、训练或对可视化的定性分析。

在这项工作中,作者利用了CLIP嵌入的高度结构化和多模态特性来提高可解释性,并提出了SpLiCE方法,该方法将CLIP表示分解为一系列人类可解释的、具有语义意义的概念。

作者整体贡献包括:

  1. 在第3和第4节中,作者确定了分解可行的充分条件,并接着介绍了SpLiCE,这是一种新颖的方法,它将密集的CLIP嵌入分解为人类可理解的、语义概念的稀疏组合。
  2. 作者在第5部分的广泛实验揭示了SpLiCE可以在下游任务上以极小的性能损失恢复高度稀疏、可解释的表示,同时准确捕捉到底层输入的语义。

3 When do Sparse Decompositions Exist?

在本节中,作者旨在回答这个问题:在什么条件下,CLIP表示可以分解为稀疏的语义表示?为了回答这个问题,作者需要分析CLIP的特性以及底层数据的特性。

符号表示。

\mathbf{x}^{\mathrm{img}}\in\mathbb{R}^{d_{i}}

\mathbf{x}^{\mathrm{txt}}\in\mathbb{R}^{d_{e}}

分别为图像和文本数据。给定CLIP图像编码器

f:\mathbb{R}^{d_{i}}\rightarrow\mathbb{R}^{d}

和文本编码器

g:\mathbb{R}^{d_{e}}\rightarrow\mathbb{R}^{d}

,作者在

\mathbb{R}^{d}

中定义CLIP表示为

\mathbf{z}^{\mathrm{img}}=f(\mathbf{x}^{\mathrm{img}})

g(\mathbf{x}^{\mathrm{txt}})=\mathbf{z}^{\mathrm{txt}}

。作者的方法使用字典学习来近似

\mathbf{z}^{\mathrm{img}}

,通过一个固定概念词汇表

\mathbf{C}\in\mathbb{R}^{d\times c}

的概念分解

\mathbf{w}^{*}\in\mathbb{R}^{c}_{+}

。作者定义从

\mathbf{C}

\mathbf{w}^{*}

重构的

\mathbf{z}^{\mathrm{img}}

结果为

\hat{\mathbf{z}}^{\mathrm{img}}

作者方法的总目标是近似于

f(\mathbf{x}^{\mathrm{img}})\approx\mathbf{C}\mathbf{w}^{*}

,使得

\mathbf{w}^{*}

是非负且稀疏的。在本节中,作者将形式化这一目标何时是可能的。作者首先考虑一个耦合图像和文本样本的数据生成过程。具体来说,作者通过一个由

k

维潜在概念向量

\omega\in\mathbb{R}^{k_{1}}_{+}

和一个随机向量

\epsilon\in\mathbb{R}^{k_{2}}

参数化的生成过程来建模。

\mathbf{x}^{\mathrm{img}}=h^{\mathrm{img}}(\omega,\epsilon),\quad \mathbf{x}^{\mathrm{txt}}=h^{\mathrm{txt}}(\omega,\epsilon),
\omega\sim\rho,
\epsilon\sim\phi,

在这里,

\rho

是关于语义概念的先验分布,

\phi

是关于非语义概念的先验分布(例如图像中的摄像机方向和照明或文本的句子结构),而

h^{\mathrm{img}}:\mathbb{R}^{k_{1}+k_{2}}\rightarrow\mathbb{R}^{d_{i}}

h^{\mathrm{txt}}:\mathbb{R}^{k_{1}+k_{2}}\rightarrow\mathbb{R}^{d_{i}}

是从潜在变量

(\omega,\epsilon)

到数据的映射。

此外,作者假设具有唯一的可逆性,即对于每一个

\mathbf{x}^{\mathrm{img}}

\mathbf{x}^{\mathrm{txt}}

,都存在唯一的预图像

(\omega,\epsilon)

生成它。在这里,每个坐标

\omega_{i}\in\mathbb{R}_{+}

编码了第

i^{\mathrm{th}}

个概念在底层数据中的普遍程度,其中概念是可以用单个英文单词描述的语义信息。在这个生成模型下,总共可以编码

k_{1}

个不同的概念通过输入,每个坐标

\omega

对应一个概念。

请注意,这些数据生成过程和潜在概念向量不能直接被观测到。作者现在确定了一个关键属性,即概念空间中数据的稀疏性。

性质 3.1:在概念空间中数据是稀疏的。换句话说,对于某些

\alpha\ll k_{1}

,作者有

\|\omega\|_{0}\leq\alpha,\forall\,\omega\sim\rho

下一个属性是最关键的,它提出CLIP模型在概念上是线性的,这与线性表示假设密切相关。此外,作者认为CLIP在很大程度上对图像中的“非语义”因素

\epsilon

不变。例如,从两个角度拍摄的猫的嵌入应当是相同的。为了在作者的背景下形式化这一点,请回忆CLIP的图像和文本编码器分别由

f

g

给出。

现在考虑

f(\mathbf{x}^{\text{img}})=f(h^{\text{img}}(\omega,\epsilon))\triangleq(f\circ h^{\text{img}})(\omega,\epsilon)

,以及类似的

g(\mathbf{x}^{\text{txt}})=(g\circ h^{\text{txt}})(\omega,\epsilon)

。注意,尽管这些组合映射

f\circ h^{\text{img}}

g\circ h^{\text{txt}}

在一般情况下可能是非线性的,但以下性质表明这些实际上是

\omega

的线性函数,并且与

\epsilon

无关。

属性3.2:CLIP编码器是(1)与

\epsilon

无关的,即,

g\circ h^{\text{img}}(\omega) \triangleq g\circ h^{\text{img}}(\omega,\epsilon),
g\circ h^{\text{txt}}(\omega) \triangleq g\circ h^{\text{txt}}(\omega,\epsilon),

以及(2)在概念空间

\omega

中线性,即

g\circ h^{\text{txt}}

f\circ h^{\text{img}}

关于

\omega

是线性的。

请注意,这个假设并不要求

f,g

必须是线性的,而是要求它与底层的生成模型

h^{\text{img}},h^{\text{txt}}

的复合结果是一个线性映射。这意味着CLIP编码器

f,g

对潜在的生成过程进行了一次“反转”,达到一个线性变换的程度。这个假设与计算机视觉系统必须表现得像“逆向图形”模型的观点是一致的。在附录E.1中,作者提供了一个玩具级设置中CLIP这种线性的证据。

作者现在提出了另一个假设,连接CLIP的图像和文本表示,要求它们是相等的。这大约是由CLIP的训练目标所强制执行的,该目标要求图像和文本表示进行对齐。

属性3.3:对于相同的潜在概念向量

\omega

,CLIP的图像和文本表示相等,即,

f\circ h^{\text{img}}(\omega)=g\circ h^{\text{txt}}(\omega)

作者的最终假设涉及概念空间中基向量的计算。这些基向量由

\mathbf{e}_{i}\in\mathbb{R}^{k}

给出,是唯一的一个热向量,在第

i^{\text{th}}

个坐标处为1。考虑这些“基础”概念在文本空间中的映射。由于概念可以用单个英文单词描述,不涉及任何语法结构或短语,因此基向量到文本的映射与无关语义的噪声无关。以下假设表明,这些是描绘该概念的单独单词的字符串。

属性3.4:基础概念

\mathbf{e}_{i}

在文本空间中映射到单个词语,即

h^{\text{txt}}(\mathbf{e}_{i},\epsilon)=h^{\text{txt}}(\mathbf{e}_{i})

是表示该概念的单一词语的文本字符串。

在这个假设下,如果坐标

i

对应于猫的概念,那么

h^{\text{txt}}(\mathbf{e}_{i})=

"猫"。现在考虑这些“基础”概念在文本空间的编码,即,

\mathbf{c}_{\mathbf{i}}^{\text{txt}}=(g\circ h^{\text{txt}})(\mathbf{e}_{i})

。也让作者定义概念字典

\mathbf{C}=[\mathbf{c}_{0}^{\text{txt}};\mathbf{c}_{1}^{\text{txt}}...;\mathbf{ c}_{k_{i}}^{\text{txt}}]\in\mathbb{R}^{d\times k_{1}}

作为文本概念基础的矩阵。因此,概念字典

\mathbf{C}

可以等价地表示为一个单词序列,例如:[猫,海洋,天空,...],在文本空间编码这些概念。给定这些假设,作者可以写出关于CLIP表示的以下陈述。

定理3.5:鉴于性质4.1 - 4.4,CLIP图像嵌入

f

可以表示为文本嵌入的稀疏线性组合,即,

f(\mathbf{x}^{\text{img}})=\mathbf{C}\mathbf{w};\ \ s.t.\ \ \|\mathbf{w}\|_{0}\leq\alpha

其中

\mathbf{w}\in\mathbb{R}_{+}^{k_{1}}

,而

\mathbf{C}\in\mathbb{R}^{d\times k_{1}}

,这是从单个词的词嵌入中获得的概念字典,如上所述。

证明概要:性质3.1和3.2共同表明

f

可以被写成图像嵌入的稀疏线性组合,而性质3.3和3.4有助于将这一结果转移到单个单词的文本嵌入中。作者将在附录C中提供完整的证明。

因此,作者已经证明了在属性3.1-3.4的范围内,对于CLIP及其数据生成过程的自然假设下,CLIP模型具有稀疏分解的特性。这里的 关键思想是属性3.2,它要求模型在概念空间中表现出线性行为。在下一节中,作者提出了一种执行这种稀疏分解的方法。

4 Method

在本节中,作者介绍了SpLiCE,一种将CLIP的图像表示表达为概念字典的稀疏、非负线性组合的方法。在以下的小节中,作者将概述作者的设计选择,包括在4.1节中作者如何选择概念字典,在4.2节中作者如何弥合CLIP图像与文本表示之间的模态差距,以及在4.3节中作者的分解方法。

Concept Vocabulary

自然语言是一种直观、可解释且紧凑的语义信息交流媒介。因此,作者选择用自然语言表达的语义概念组合来表示CLIP嵌入中的语义内容。作者将此形式化为一个自然语言嵌入的概念词汇表上的字典学习问题,在这里,作者定义概念为一个可以通过单个英文单词表达的语义视觉单元。

先前的研究发现,现有的基于概念的解释方法对所选的概念词汇非常敏感,而且对于像传统概念瓶颈模型这类方法的一个普遍批评是,它们依赖于对当前任务精心指定和专家选择的概念集。此外,概念集的大小与该方法提供的可解释性之间存在直接的权衡,因为包含太多概念的解释对人类来说难以理解。

然而,由于作者在概念分解中实施了稀疏性,作者可以选择一个大的、过度完整的词汇表,它能够很好地覆盖CLIP的概念空间,因此对专家和任务是无关的。为了构建作者的词汇表,作者考虑了LAION-400m数据集中的所有文本标题中的一词英文标记 。作者过滤掉标题中任何不适宜的内容,并选择最常见的前10000个词作为作者的概念词汇。

Modality Alignment

为了将图像分解为文本概念,作者必须确保图像的表示能够涵盖作者的概念集。然而,Liang等人(2022年)指出在CLIP中存在一个模态差距,即图像和文本嵌入可能会在单位球体上的非重叠空间中存在。从经验上,作者发现CLIP的图像和文本嵌入分布在两个锥体上,因为MSCOCO图像和文本嵌入之间的成对余弦相似性分布集中在正值上(图3)。

为了纠正这一点,作者用估计的MSCOCO图像锥体均值(

\mu_{\text{img}}

)对CLIP图像进行均值中心化,并在均值中心化的概念词汇表(

\mu_{\text{con}}

)上计算分解。请注意,在中心化后需要重新标准化嵌入以确保它们位于单位球体上。如果作者希望将分解转换回密集表示(

\hat{\mathbf{z}}^{\text{img}}

),作者通过将图像均值加回并再次标准化,来对标准化密集嵌入

\hat{\mathbf{z}}^{\text{img}}

进行去中心化,以确保它们位于原始CLIP嵌入(

\mathbf{z}^{\text{img}}

)的相同锥体上。

Sparse Nonnegative Concept Decomposition

作者在对密集的CLIP表示进行语义分解时考虑两个要求:_稀疏性_和_非负性_。大量研究已经表明,稀疏性和非负性在表示中产生更大的可解释性,因为稀疏集可以被一次性理解,而负面的语义仍然不直观且难以概念化。

这激励了作者的优化问题:使用一组稀疏的、非负的概念组合来重构CLIP图像嵌入。令

\sigma(x)=x/\|x\|_{2}

为归一化操作。给定一组概念词汇表

\mathbf{x}^{\text{con}}=[\text{"dog"},\text{"bird"},\text{"grass"},\ldots]

\mathbf{C}=\left[\sigma(g(\mathbf{x}^{\text{con}}_{c})-\mu_{\text{con}}), \cdots,\sigma(g(\mathbf{x}^{\text{con}}_{c})-\mu_{\text{con}})\right],

以及一个居中的CLIP图像嵌入。

\mathbf{z}=\sigma(\mathbf{z}^{\text{img}}-\mu_{\text{img}}),

作者致力于寻找最稀疏的解,该解能够为作者提供一个余弦相似度分数至少为

1-\epsilon

的结果,其中

\epsilon

是一个非常小的值。

\min_{\mathbf{w}\in\mathbb{R}^{d}_{+}}\|\mathbf{w}\|_{0}\text{ \ s.t. }\langle\mathbf{z},\sigma(\mathbf{C}\mathbf{w})\rangle\geq 1-\epsilon. \tag{1}

按照标准做法,作者放宽了

\ell_{0}

约束,并将其重新表述为最小化均方误差(MSE)并加上

\ell_{1}

正则项,从而构建了方程(1)的以下凸松弛形式2:

\min_{\mathbf{w}\in\mathbb{R}^{d}_{+}}\|\mathbf{C}\mathbf{w}-\mathbf{z}\|_{2} ^{2}+2\lambda\|\mathbf{w}\|_{1}. \tag{2}

请注意,

\mathbf{w}

的线性特性允许作者解释坐标

\mathbf{w}_{i}

的大小作为概念

i

在图像

\mathbf{x}^{\text{img}}

中的显著程度。将作者优化问题的解定义为

\mathbf{w}^{*}

,那么作者重建的嵌入接着就是。

\hat{\mathbf{z}}^{\text{img}}=\sigma(\mathbf{C}\mathbf{w}^{*}+\mu_{\text{img} }). \tag{3}

5 Experiments

在本节中,作者评估了作者的方法,以确保增加的可解释性对下游任务性能的损失最小,并准确反映表示的语义内容。

Setup

模型。 本文所示的所有实验都是使用OpenCLIP ViT-B/32模型进行的,附录13中提供了额外模型的结果。对于所有的零样本分类任务,作者使用提示模板“一张{}的照片”。

数据集。 作者的实验使用了CIFAR100,MIT States,CelebA,MSCOCO,以及ImageNet-Val。

分解。 对于所有涉及概念分解的实验,作者使用了sklearn的Lasso求解器,并设置了非负性标志和

l_{1}

惩罚,得到了具有

l_{0}

范数为15-30(大多数数据集约为0.2)的解,除非另有说明,这与Ramaswamy等人(2022年)发现的32个概念的阈值一致。作者使用了一个从第4.1节中描述的LAION标记子集中选择的概念词汇。正如第4.2节所述,图像和概念都进行了中心化处理,其中用于中心化的图像均值是在MSCOCO训练集上计算的,而概念均值是在作者选择的词汇上计算的。

Sparsity-Performance Tradeoffs

作者通过评估SpLiCE分解表示与CLIP嵌入之间的重建误差、SpLiCE的零样本性能以及各种嵌入的检索性能来评估其表现。作者将从作者的语义概念词汇生成的分解性能与随机词汇以及通过学习得到的词汇字典生成的分解性能进行了比较。所有词汇均包含10,000个概念,其中随机词汇是从高斯分布中抽取并归一化到超球面上的。通过使用Fast Iterative Shrinkage-Thresholding Algorithm (FISTA) Beck和Teboulle [2009]的方法在学习MSCOCO图像语料库或标题语料库的最优字典来生成学习得到的词汇。

在图4中,作者可视化了使用不同字典的图像分解余弦重建和零样本准确度。作者发现,尽管在余弦相似度方面,作者的语义概念字典不如学习到的字典那样能很好地重建样本,但在零样本分类任务上,它明显优于随机和学习到的字典分解。特别是,稀疏度较低的分解(小于5个非零概念)仍然提供了足够的语义信息,使得CIFAR100和MIT States图像的分类性能与原始CLIP嵌入相似。

作者注意到,在ImageNet上的性能不如其他数据集,因为许多ImageNet类别是动物物种,它们不能很容易地用几个单一单词的语义概念来描述(例如“波士顿牛”)。正如图4中的虚线黄色曲线所示,将这些类别标签添加到作者的概念字典中,可以显著提高性能。

作者注意到有趣的是,在图像上学习到的概念字典在余弦重建方面优于在文本上学习到的字典,但在高稀疏度下的零样本性能则相反。作者在附录中评估了检测性能(表3、4)。

作者最终在文本到图像以及图像到文本的检索任务上测试了SpLiCE嵌入的表现。作者评估了在MSCOCO的各个1024个样本子集上的检索性能,并评估了相反模态的 top-k 最接近嵌入的召回性能。

作者在图5中可视化了文本到图像检索的

k=\{5\}

,而在附录中的图像到文本检索则展示

k=\{1,10\}

(图12)。

作者注意到,虽然在这些分解在高稀疏性下的表现并不能完全匹配密集CLIP嵌入的性能,但是内存减少一个数量级 (

l_{0}

范数约为50)仅导致召回率下降大约15%。

Concept Based Explanations of Images

作者定性评估了SpLiCE分解在衡量其所代表图像的语义内容方面的表现。在图2中,作者提供了来自MSCOCO的六个样本分解及其相应的标题。作者展示了每个图像的前六个概念,并发现它们通常能很好地描述图像的语义。因此,作者建议这些分解可以用作图像标签器,或者简而言之,当在下游任务(如分类)中使用CLIP嵌入时,可以作为基于概念的对CLIP嵌入语义内容的解释。

Concept Based Explanations of Classes or Datasets

虽然概念分解对于解释任何依赖CLIP嵌入的系统预测和决策非常有用,但作者还建议这种方法可以用来更好地理解和总结数据集。通过分解整个类别或整个数据集,作者可以找到数据的潜在语义分布。

作者在图6中可视化了三个ImageNet类别('Bakery', 'Balloon', 'Indian elephant'和'African elephant')中最常见的7个概念。这些分解为类别本身提供了有趣的洞察;在“Bakery”类别中第二常见的是“cupcake”,实际上作者发现测试类别中有7/50张照片是cupcake的特写照片。“Balloon”类别并不是指充气的派对气球,而是指热气球,这从“parachute”和“flying”这些概念可以得知。

对于两个大象类别,作者可以看到分解中包含了关于背景的信息,比如“jungle”、“kerala”和“africa”,从而编码了这两个物种之间的细微差别。

6 Case Studies and Applications of SpLiCE

在本节中,作者展示了使用SpLiCE进行的三个案例研究:

  1. 在数据集6.1中检测虚假相关性和偏见,
  2. 去除分类模型的偏见6.2,
  3. 监测分布偏移6.3。

Case Study: Spurious Correlation Detection

SpLiCE技术的一个重要激励应用是能够自动语义总结数据集。作者发现这对于审查数据集中的偏见或伪相关特别有帮助,否则这需要既包含子群组又包含伪相关特征的标签。作者提出了一个CIFAR100数据集中两个成人类别:“男人”和“女人”的案例研究。

在对这些类别进行分解时,作者发现“胸罩”和“泳装”是'女人'类别中最常见的十个概念中的两个。另一方面,'男人'类别中在前50个最活跃概念中出现的唯一与服装相关的概念是{"制服","燕尾服","服装"}。作者在图7中可视化了与游泳者和内衣相关概念{"泳装","胸罩","短裤","内衣"}的概念权重直方图,跨越了训练集和测试集,发现这些概念对于女性比男性更有可能被激活。

这一现象通过手动检查CIFAR100数据集得到了确认,在'女人'测试类别中至少有8张100张图像展示了穿比基尼的女性,揭示了这一流行数据集中的刻板印象偏见。

Case Study: Model Editing

概念分解的另一个关键应用是使用它们来隔离特定的信息,从而实现细粒度的干预。这种干预可以直接在嵌入上进行,作者可以将一个概念清零,并重构不包含该信息的输入,或者基于分解构建的 Prob 上,作者可以手动改变概念与类别标签之间的关系。

考虑一个在CelebA图像上训练的面部识别分类器。作者希望这个分类器在对眼镜的存在具有不变性,但作者不确定是否某些特定个体与眼镜的出现之间存在虚假的相关性。因此,作者希望从图像表达中移除“眼镜”或“眼镜”这一概念,使得它们不能被用于下游的分类任务。

作者可以通过简单地将SpLiCE分解中放置在这些概念上的权重清零来实现这一点,并评估零样本分类器是否能检测到眼镜的存在。作者在'ZS SpLiCE'和'干预 SpLiCE'行分别报告了在干预前后零样本分类器识别“眼镜”这一概念的绩效。Vanilla CLIP的绩效作为 Baseline 在'ZS CLIP'中给出。作者看到,移除这一干预将零样本分类器的准确度从0.88降低到0.69(其中0.50是随机的)。

作者还评估了在线性 Prob 上的干预,其中作者消除了概念的 Prob 权重,并观察到在发明之后,眼镜 Prob 的准确度从0.88下降到0.59。作者提供了性别分类的绩效作为面部识别的代理,并观察到对于零样本和检测任务,对“眼镜”的干预对性别分类的影响最小。

Case Study: Distribution Shift Monitoring

作者使用SpLiCE进行了一个最终的案例研究,以监测分布偏移。这可以帮助识别训练与推理分布之间的差异,或者评估连续采集的数据集随时间的变化。在这个实验中,作者考虑了斯坦福汽车数据集,其中包含了1991年至2012年的汽车照片,以及它们的制造商和年份标签。通过分解每年汽车的照片,作者可以查看分布每年的变化情况。

在图8中,作者可视化了分解中“敞篷车”和“黄色”概念的权重,以及每年实际为敞篷车或黄色的汽车所占的百分比。请注意右侧的y轴,它对应于给定概念

c_{i}

的权重与所有概念权重之和

\sum_{i}c_{i}

的比例,并没有有意义的单位或刻度。作者发现,GT概念流行趋势通常与预测/分解的概念非常吻合,这使作者能够可视化哪些年份敞篷车或黄色汽车受欢迎,或与其他年份相比处于非分布状态。

7 Discussion

在这项工作中,作者展示了CLIP嵌入中的信息可以通过简单语义概念的线性组合来近似,这使得作者可以用稀疏、非负的字典学习来解释表示。作者提出了SpLiCE方法,将CLIP的密集、难以解释的嵌入转化为人类可理解的稀疏概念分解。

作者实证展示了SpLiCE改进的可解释性并不会牺牲下游任务的性能,并为SpLiCE提供了三个具体的使用案例:虚假相关检测、模型干预与编辑,以及分布偏移监控,展示了使用具有已知语义内容的可解释嵌入的好处。作者强调,SpLiCE嵌入不仅可以替代密集的CLIP嵌入,也可以作为对它们的事后解释。

局限性。在本研究中,作者仅将一个英文单词的概念纳入到作者的概念词汇中;然而,有许多概念无法在那些限制下被描述,例如“奶油鸡”。此外,作者只考虑了线性分解,这是因为其凸性及潜在的附加可解释性。未来的研究可以考虑使用非线性分解求解器以获得更精确的分解。SpLiCE还使用了

\ell_{1}

惩罚作为

\ell_{0}

正则化的松弛,但未来的工作可以考虑其他松弛方法,甚至是二进制的概念权重。

Broader Impact.

与可解释性领域中的许多工作相似,作者的工作提供了对模型行为的更深入了解,包括但不限于它们持续推广的更广泛的隐性偏见以及个别样本上的错误。作者认为这对于CLIP尤为重要,因为CLIP被广泛应用于各种广泛使用的应用中。

作者希望从这种可解释性中获得的理解能使用户在如何与使用CLIP互动方面做出更明智的决策,无论他们对机器学习或在使用CLIP的任务中的领域专业知识熟悉程度如何。作者还强调,SpLiCE可以作为类似于可视化工具,用于大规模探索和总结数据集,从而更容易审核数据集和模型中的虚假相关性和偏见。

参考

[1].Interpreting CLIP with Sparse Linear.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
KDD'22 | 基于显著性正则化的多任务学习
本文是针对多任务学习提出的相关方法,提出了一种新的多任务学习框架,通过补充现有浅层和深度多任务学习场景的优势,共同学习潜在特征和显式任务关系。
秋枫学习笔记
2022/09/19
3890
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
在大规模基础模型的时代,经过大规模预训练后,对各种下游任务进行最小调整已成为迁移学习的新范式。然而,与自然语言处理领域基础模型的巨大成功不同,大多数视觉模型在各种下游任务中的零样本迁移学习能力尚无法达到可比水平。通过引入语言监督并在网络规模的数据集上进行学习,对比语言图像预训练(CLIP)模型能够将视觉表示泛化到开放词汇推理,并展现出惊人的零样本分类结果,然而,在更复杂的任务,如语义分割方面,这种能力仍然非常有限。
集智书童公众号
2023/12/19
1.3K0
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.5K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
大型视觉语言模型(VLMs),如CLIP ,彻底改变了图像分类。尽管早期的深度分类模型如AlexNet 和ResNet 取得了进展,但它们处理开放词汇分类的能力对它们在各种领域的适应性贡献显著。此外,通过在特定数据集上对它们进行微调,它们达到了惊人的准确度。
AIGC 先锋科技
2024/07/08
2010
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
语义分割是许多实际系统中进行关键视觉感知任务的一个关键步骤,例如自动驾驶汽车和工业机器人。通常以数据集为导向进行处理,最佳方法需要一个经过人工标注的训练数据集,该数据集针对特定且有限的一组类别进行处理。强大的视觉语言模型的出现正在推动从封闭词汇范式向开放世界范式的转变。
集智书童公众号
2024/01/17
1.2K0
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
该论文是关于神经网络鲁棒性理论类的文章。类似有Sigmoid激活函数的神经网络,由于其非线性,使得在进行神经网络鲁棒验证评估时,不可避免地会引入了不精确性。
CV君
2022/11/28
7880
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
文字生成图片综述 - plus studio
根据文字生成图像,是近几年大模型领域和多模态比较热门的研究。以NovelAI,waifu等为代表的二次元模型极大地拓展了 stable diffusion [5][24]模型和生态的想象空间。例如原本做AIGC生成小说的NovelAI推出了自己的二次元图像生成模型,基于 SD 算法框架和 Danbooru 二次元图库数据集进行训练和优化。像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高,也由社区自发整理了大量的魔典(prompt).精确控制图像的生成也是AI绘画的一个发展方向,各种可以控制人物动作,位置的方法[10][13][19]被提出.最近openai也开源了他们最新的研究Consistency Models[20] ,可以1s内生成多张图片。此外,stable diffusion也被用在了3d模型的生成方面,例如 dreamfusion[25],Point-E[26] 等。
plus sign
2024/02/28
7140
文字生成图片综述 - plus studio
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
值得注意的是,所提出的该方法在Cityscapes测试数据集上实现了51.8%的“mIoU”,展示了其在驾驶场景数据集上的强大WSSS Baseline 的潜力。在CamVid和WildDash2上的实验结果表明,作者的方法在各种数据集上具有有效性,即使数据集较小或具有视觉挑战性条件。 代码:https://github.com/k0u-id/CARB
集智书童公众号
2024/04/12
9480
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
​三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测,性能 SOTA
RAL构成两个损失,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)中的文字化概念增强视觉特征。 作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作者在COCO数据集的新颖类别上取得了高达3.4 box
集智书童公众号
2024/04/25
3400
​三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测,性能 SOTA
​三合一检测器 | 通过CLIP编码,实现多模态检测,解决AIGC 恶意伪造内容问题!
最近,扩散模型在图像生成领域迅速发展。以文本图像生成为代表的AI生成技术显著降低了合成图像创作的门槛。不幸的是,这种能力有可能被滥用于恶意目的。例如,文本图像生成可以用于零样本场景中,针对全球知名政治行人制作深度伪造攻击[1]。这种滥用可能会在社会结构中产生严重的信任问题。扩散生成机制与之前的做法不同,现有的检测方法在其可迁移性方面表现不佳。因此,开发针对扩散模型的伪造检测方法具有重要意义。
AIGC 先锋科技
2024/07/08
5120
​三合一检测器 | 通过CLIP编码,实现多模态检测,解决AIGC 恶意伪造内容问题!
CVPR 2024 | SVGDreamer: 北航&港大发布全新文本引导的矢量图形可微渲染方法
本篇分享 CVPR 2024 论文SVGDreamer: Text Guided SVG Generation with Diffusion Model,由北航&港大发布全新文本引导的矢量图形可微渲染方法,SVGDreamer。
CV君
2024/03/25
5430
CVPR 2024 | SVGDreamer: 北航&港大发布全新文本引导的矢量图形可微渲染方法
MobileCLIP来袭 | 如果CLIP可以通过重参加速,你会选择用它作为Backbone预训练吗
大型图像文本基础模型,如CLIP,在零样本性能上表现出优异的表现,并在各种下游任务上提高了鲁棒性。然而,由于这些模型的大小和延迟,在移动设备上部署它们具有挑战性。作者的目标是设计一个新的对齐图像文本编码器家族,使其适合移动设备。实现这一目标的主要挑战有两个:
集智书童公众号
2023/12/11
2.6K0
MobileCLIP来袭 | 如果CLIP可以通过重参加速,你会选择用它作为Backbone预训练吗
X-Dreamer |通过弥合Text-to-2D和Text-to-3D生成领域之间的差距来创建高质量的3D资产。
本篇分享论文X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation,通过弥合 Text-to-2D 和 Text-to-3D 生成领域之间的差距来创建高质量的 3D 资产。
CV君
2023/12/13
3980
X-Dreamer |通过弥合Text-to-2D和Text-to-3D生成领域之间的差距来创建高质量的3D资产。
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
论文: LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction
VincentLee
2024/10/22
2400
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。
CV君
2021/11/18
2.5K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
​浅析多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的一些工作和个人的理解。
腾讯技术工程官方号
2023/11/01
3.9K0
​浅析多模态大模型的前世今生
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
基于视觉的3D占用预测旨在估计周围 ego-vehicle 所包围的 3D Voxel 的空间占用状态,这为 3D 场景提供了全面的 3D 理解。通过将整个空间划分为 Voxel 并预测其占用和语义信息,3D 占用网络赋予了通用的物体表示能力,其中超出词汇的物体和异常情况可以很容易地表示为 _[占用;未知]_。
集智书童公众号
2023/12/12
9910
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
图像包含大量冗余信息,这使得在大规模上高效地从图像中学习表示变得具有挑战性。最近的工作通过在视觉-语言对比学习过程中 Mask 图像块来解决这个问题[15, 33, 36, 70]。一种简单的方法是随机丢弃大量图像块,通过减少每次训练迭代的计算成本和内存使用来提高训练效率[36]。另一种策略是 Mask 语义相关的图像块集合[15, 33, 70],比如属于同一物体的块。这迫使学习到的模型从上下文中预测描述缺失场景结构的单词,从而改进了学习的表示。然而,这种方法需要单独的机制来将语义相关的块分组在一起,这增加了学习过程的复杂性并且计算成本高昂。
AIGC 先锋科技
2024/07/08
2450
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
随着VLMs规模的增大,用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来,由于在调整大规模预训练模型方面的显著成功,参数高效微调(PEFT)技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs,并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功,但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1)防御性能有限和2)计算和存储成本高昂。为了验证作者的观点,作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中,作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外,LoRA、LP和Aurora对对抗攻击并不鲁棒。
AIGC 先锋科技
2024/07/08
4450
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
可扩展机器学习——分类——点击率预测(Click-through Rate Prediction)
注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。这部分本应该加上实验的部分,实验的部分在后期有时间再补上。
felixzhao
2019/01/31
1.9K0
可扩展机器学习——分类——点击率预测(Click-through Rate Prediction)
推荐阅读
KDD'22 | 基于显著性正则化的多任务学习
3890
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
1.3K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.5K0
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
2010
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
1.2K0
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
7880
文字生成图片综述 - plus studio
7140
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
9480
​三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测,性能 SOTA
3400
​三合一检测器 | 通过CLIP编码,实现多模态检测,解决AIGC 恶意伪造内容问题!
5120
CVPR 2024 | SVGDreamer: 北航&港大发布全新文本引导的矢量图形可微渲染方法
5430
MobileCLIP来袭 | 如果CLIP可以通过重参加速,你会选择用它作为Backbone预训练吗
2.6K0
X-Dreamer |通过弥合Text-to-2D和Text-to-3D生成领域之间的差距来创建高质量的3D资产。
3980
LaMI-DETR:基于GPT丰富优化的开放词汇目标检测 | ECCV'24
2400
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
2.5K0
​浅析多模态大模型的前世今生
3.9K0
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
9910
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
2450
​中科院联合多所高校提出 AdvLoRA | 通过数据增强,攻击检测等对抗模型攻击,提高模型安全性和鲁棒性!
4450
可扩展机器学习——分类——点击率预测(Click-through Rate Prediction)
1.9K0
相关推荐
KDD'22 | 基于显著性正则化的多任务学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档