视觉语言模型(VLM)的嵌入层已经证明可以编码其训练数据中存在的偏见,例如,社会偏见将负面的特征赋予各种种族和性别身份的成员。VLM正在迅速应用于各种任务,从少样本分类到文本引导图像生成,因此,对VLM嵌入进行去偏的重要性不言而喻。 然而,许多去偏方法在微调VLM时往往会出现灾难性遗忘。另一方面,去偏训练免费的方法通常采用“一概而论”的方法,该方法假设可以用所有可能的输入上的单一线性方向来解释与伪属性相关的关联。 在本工作中,作者提出了一种称为Bend-VLM的非线性、去偏训练免费的方法,该方法针对每个独特的输入自定义去偏操作。这使得作者的去偏方法更加灵活。 此外,作者不需要在推理时间之前就拥有输入集合的知识,这使得作者的方法更适合用于在线、开放集任务,如检索和文本引导图像生成。
预训练的基础视觉语言模型(VLMs),如CLIP [33],BLIP [22],以及LLaVA [25],已在诸如图像检索 [21],零和少样本分类 [33; 4],文本引导图像生成 [32],以及人脸识别 [58]等领域得到广泛应用。然而,VL模型也编码了社会偏见 。随着越来越多的系统依赖CLIP,编码的表示性危害 [12; 3; 15; 52]可能导致分配性危害,例如计算机视觉系统将黑人个体错误分类为非人类类别的可能性是普通人的三倍 [1]。
最新进展 去偏见VLMs是一个活跃的研究领域。一种常见的做法是微调嵌入模型以消除伪相关性[59; 2; 42]。然而,微调通常会降低基础模型的准确性和泛化能力[31]——这是一个明显的缺陷,因为这些模型通常用于零样本任务。大多数现有的无微调方法学习的是初始文本嵌入的偏见转换,但通常使用一劳永逸的_线性_偏见函数,对每个输入应用相同的固定转换[6; 10; 50]。
虽然最近的研究探讨了非线性VLMs [11],但它们的方法在测试时需要访问一组类别,这需要重新运行去偏训练 Pipeline ,如果针对新类进行 Query 。这在实践中是一个主要限制,因为许多VLMs用于的任务通常具有自然开放式,即在推理之前,测试时需要评估的类别未知。
问题定义:作者研究VLM嵌入的在线开集去偏。在这种设置下,作者只拥有一个VLM以及一个单模态图像数据集。这个图像数据集仅用于“训练”,而不是下游任务实际使用的数据集。作者假设这个数据集,作者称之为_参考数据集_,具有感兴趣的保护属性的标签。在测试时,作者一次接一次地收到在线输入 Query 。这些 Query 也是开集的,意味着它们所指代的类别或概念事先未知于作者。例如, Query 可能是一个“护士的照片”,但在收到 Query 之前,作者并不知道护士是可能的感兴趣类别。作者的目标是使 Query 嵌入从VLM中去偏,从而使 Query 嵌入与任何其他保护属性的值关联程度更低。例如,“护士的照片”的嵌入不应比男性照片更强烈地与女性照片相关联。
挑战。在线开放集VLM去偏化是一个具有挑战性的任务。首先,作者必须克服灾难性遗忘——一种可以降低嵌入的偏斜度,但降低性能的解决方案。其次,受保护属性和 Query 类之间的互动可能是非线性和实例相关的。例如,要从“护士”的嵌入中消除性别偏见所需的转换,可能与要从“修理工”的嵌入中消除性别偏见所需的转换不同。第三,来自开放集类的 Query 意味着作者的方法必须足够灵活,可以在推理时间之前从类中移除受保护属性的关联。最后,在线设置需要计算效率,因此排除了为每个当前类或 Query 重新构建去偏化组件的可能性。
作者的建议是:消除视觉语言模型(VLM)的偏差,即Bend-VLM,这是一种在测试时对VLM进行非线性去偏的方法,在保持VLM权重不变的同时,具有足够的效率用于在线 Query 。通过使用易于获取的带有保护属性的预去偏参考数据集,Bend-VLM可以在无监督的情况下进行测试时去偏。从高层次来看,Bend-VLM主要由两个主要部分组成:
首先,对于一个在线 Query ,作者生成增强 Query ,引入受保护属性的信息。例如,给定“一名护士的照片”,作者生成“一名{ATTRIBUTE}护士的照片”,其中{ATTRIBUTE}用男/女/非二元表示性别去偏。作者从一个小语言模型中获取这些增强 Query ,并使用它们在嵌入空间中找到与受保护属性最相关的特定 Query 的方向。根据这些方向,作者将嵌入投影,使其与受保护属性维度正交,从而得到第一阶段的去偏表示。
在第二步中,作者利用参考图像数据集。作者找到与 Query 最相关的图像,然后通过保护属性值进行子集。作者通过求解一个约束优化方程来找到一个具有最小距离到第一阶段去偏化表示的嵌入,同时与每个属性值下的示例图像具有相等的相似性。例如,作者找到一个与每个性别最近的图像具有相等相似性的嵌入。得到的嵌入与任何其他去偏化受保护属性值都没有过多的关联。然后将输出传递给下游任务。
贡献如下:
作者将作者的Bend-VLM与现有的去偏方法在FairFace[18]、CelebA[26]和UTKFace[57]数据集上进行了比较。每个数据集都包含人的图片。CelebA具有性别标注,而FairFace和UTKFace都具有性别和种族标签。
作者评估去偏方法在改进CLIP-ViT-Base-Patch16(CLIP-ViT-B-P16)和CLIP-ViT-Large-Patch14(CLIP-ViT-L-P14)VLMs性能方面的能力。在图像描述方面,作者使用ClipCap [30]预训练在Conceptual Captions [41]上,它使用ViT-B/32架构。作者使用Mistral-7B-Instruct-v0.2 [17]作为作者的AttributeAugment模块。
相较于方法。作者将Bend-VLM与以下去偏方法进行比较:
基准CLIP模型[33]就是原始CLIP模型(例如ViT-B-P16或ViT-L-P14)去掉任何去偏置步骤。这作为作者的基准。
正交投影通过使 Query 嵌入与全局伪属性子空间(例如,与性别相关联的嵌入空间方向)正交来降低 Query 嵌入的偏差。
同样地,正交校准(Orth-Cal.) [10] 也将嵌入向量正交于全局伪随机子空间,但引入了额外的正则化项,以鼓励属性增强的 Query 在投影后变得较为接近。
DebiasCLIP[6] 针对性别偏见进行了 CLIP 模型的微调,以消除伪属性偏见。作者们已经发布了在 CLIP-ViT-B-P16 上进行性别平权训练的 DebiasCLIP 的权重,但尚未公开其训练代码。这意味着作者在使用 CLIP-ViT-B-P16 进行实验时,仅将此方法作为比较目标。请注意,尽管发布的 DebiasCLIP 模型进行了性别平权训练,但作者将其纳入了种族平权评估,但不期望它在这些设置中具有竞争力。
作者通过Worst Group AUC ROC以及KL散度和MaxSkew偏置度指标研究了去偏对准确性的影响。作者使用CelebA,因为它具有HairColor的类别标签。
图2显示了Worst Group AUC与MaxSkew之间的关系。理想的方法应位于图的最左上角,表示高精度和低偏差。作者的Bend-VLM方法接近这个理想区域。作者在 Baseline 上的Worst Group AUC提高,大致上匹配了Orth-Proj和Orth-Cal的AUC性能,但它们的偏差明显更低。DebiasCLIP的MaxSkew优于Orth-Proj和Orth-Cal,但仍然比Bend-VLM差,同时与 Baseline 相比AUC降低。作者在附录A.1节中提供了这个实验的额外结果;请参阅表6,其中包含了相同设置的结果,以及KL散度度量。作者明显看到,Bend-VLM的偏差评分显著优于所有比较方法,同时与下一个方法相比AUC明显更好,而与 Baseline 相比AUC几乎无损。
作者在消除成见词汇与种族和性别之间的关联方面评估了作者的方法。UTKFace、FairFace和CelebA的结果分别列在表1、2和3中。作者再次看到,Bend-VLM在所有作者评估的场景中,与比较方法相比具有较少的偏见。值得注意的是,其他去偏技术通常优于 Baseline ,但有时会出现_更差_的MaxSkew或KL差异,而作者的方法从未观察到这种情况。
作者进行了一项新实验,其中作者针对发色(HairColor)的公平性对FairFace进行去偏置,但在评估种族方面。作者不期望在性别去偏置任何方法后看到与种族偏见有关的改进。表4显示,在性别去偏置后,所有去偏置方法的种族偏见都有所上升。这反映了一个已知且令人沮丧的“Whac-A-Mole”问题,即在去偏置一个属性时,另一个属性的偏见通常会增加[23]。有趣的是,在仅执行Bend-VLM去偏置的步骤2时,作者没有看到种族偏见增加,这表明这种快捷方式问题最强烈地受到步骤1中执行的正交化操作的影响。其他去偏置方法也执行了类似的正交化步骤,并同样经历了这种快捷方式问题。
在本次实验中,作者评估了Bend-VLM对去偏自动图像描述的影响。作者研究了ClipCap [30](ViT-B/32视觉编码器,预训练于概念描述[41]),因为它是少数仅输入最终层嵌入向量的描述方法,相反,BLIP [22]或LLaVA [25]输入ViT的嵌入序列。
作者挑选了20张图像,这些图像的 Baseline CLIP 嵌入式表示生成的标题具有显著的负面影响或有害性。经过 Bend-VLM 去偏后,作者进行了手动检查,发现去偏后的6张图像中,有3张图像的标题变得更加有害,有11张图像的标题与原始标题相同。
接下来,作者从FairFace的验证集随机抽取1600张图像,这些图像生成的描述中包含了以下负面词汇: "abandoned","murder","homeless","accuse","kill","anime","arrest","surprised","blood","shot","pregnant","intoxicat","charged","bad day","permanently surprised","bandage","hit","wilful","no idea","prison","abuse","attack"。然后作者使用CLIP进行自动化情感分析。表5显示,Bend-VLM降低了每个种族的平均负面情感,并使这个平均值在各种族之间更加均衡。
为了实现Bend-VLM,作者需要一个具有受保护属性标注的参考数据集,这在某些场景下是不现实的。在作者的当前实现中,作者的AttributeSwap模块需要使用相对较小的7B LLM。这可能在非常资源受限的情况下带来过多的计算开销。此外,作者的评估数据集并非完美无缺。
它们只包含二进制性别标签,但有一大批人并不以这种方式进行自我认同。此外,种族和性别标签并非来自自我识别,这意味着它们只是身份的噪声信号。作者认为,作者的方法总体上有助于理解和减轻偏见,并且仍可以直接扩展以支持对减轻社会偏见极端挑战的更细微解决方案。
近年来,视觉语言模型(Vision-Language models)越来越广泛地应用于各个领域。然而,这些模型已知存在伪相关问题,并且可能对某些种族和性别存在偏见[8]。研究表明,这些模型中的偏见可以源于它们所使用的训练数据。例如,Agarwal等人[1]发现,CLIP模型在将"白人"文本标签与白人个体相比时,准确度较低,而将黑人标签的图像更可能被错误地 Token 为动物。此外,Dehouche在 Prompt 性别中立的文本时发现了CLIP中的性别偏见,而Wolfe等人[53]指出,多族裔个体更容易被分配到少数族裔标签。这些模型中嵌入的偏见反映了训练数据的偏见,这些数据通常包含令人反感且成见的内容。
去偏视觉语言模型. 近年来,视觉、语言和视觉语言模型的去偏取得了各种减轻偏见的方法,范围从数据增强和平衡[7]到模型层面的调整,如对抗训练[45]。例如,Wang等人[50]提出删除与性别属性相关的CLIP嵌入维度的维度,而Berg等人[6]使用对抗学习通过 Prompt 学习去偏CLIP模型。其他技术包括学习可加性残差图像表示[40]和通过使用对比学习[56]和伪相关感知微调[55]提高CLIP的鲁棒性。Friedrich等人[13]开发了一个公平文本到图像扩散模型的查找表。同样,Kong等人[20]通过在 Query 结果中下采样主要类别解决了图像检索的测试时偏见,而Adept框架[54]使用去偏 Prompt 文本嵌入。Chuang等人[10]通过正交化与受保护属性相关的嵌入维度的嵌入,在不进行广泛微调的情况下减少了偏见。Kim等人[19]强调了在视觉语言模型中解决性别和种族偏见的重要性。尽管做出了这些努力,在不需要广泛再训练的情况下实现有效去偏仍然具有挑战性。相比之下,作者的方法完全零样本且不依赖于任何下游数据集或模型训练,旨在为去偏视觉语言模型提供更可扩展的解决方案,尤其是在开放场景中,当提供的是一段文本而不是多个类别时。
本工作提出了一种不需要fine-tuning的测试时VLM去偏方法,能够针对特定 Query 执行非线性去偏,而不是采用一视同仁的方法。作者在检索、分类和图像描述中消除种族和性别偏见实验表明,作者的方法在降低偏见的同时,始终能提高最差组的表现。
作者发现,作者的方法始终能匹配最佳表现方法的准确性,同时显著降低所有比较方法的偏见。作者希望作者的方法能激发更多关于VLMs高效、非线性去偏技术的科研工作。
[0]. BendVLM: Test-Time Debiasing of Vision-Language Embeddings.