文章/答案/技术大牛

发布

社区首页 >专栏 >ICCV | TupleInfoNCE 的对比多模态融合

ICCV | TupleInfoNCE 的对比多模态融合

计算机视觉

发布于 2023-02-24 07:36:22

1.1K0

文章被收录于专栏：计算机视觉工坊计算机视觉工坊

ICCV | TupleInfoNCE 的对比多模态融合

论文作者：Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi

1清华大学 2谷歌研究院 3斯坦福大学 4加州大学伯克利分校 5北京大学

笔者个人体会

人类对世界的感知自然是多模态的。我们看到、听到和感觉到的都包含不同种类的信息。各种形式相互补充和消除歧义，形成世界的代表。当前目标是训练机器融合这样的多模态输入，以自监督的方式产生这样的表示，而无需手动标注。

一种越来越流行的自监督表示学习范式是对比学习，它通过优化对比损失和解决实例判别任务来学习特征表示。最近有多项工作探索了多模态表示学习的对比学习。然而，大多数传统方法学习了跨模态嵌入空间，通过对比不同的模态来学习它们之间共享的信息，但未能充分利用多模态的协同效应。因此，作者提出建议对比多模态输入元组，而不是对比不同的数据模态，将所有模态连接成一个元组，然后对比正负元组对应关系。这样做的优势：不仅支持跨模态提取共享信息，还允许模态相互消除歧义并保留其特定信息，从而产生更好的融合表征。

当然，对比元组并不像对比单个元素那么简单，特别的是：这里的目标是希望学习的表征对元组中每个元素的信息进行编码，并充分探索它们之间的协同作用。进一步，带来的核心挑战是：要对比哪些元组样本？过去的研究表明：如果始终对比包含来自同一场景的相应元素的元组，会导致模型可能收敛到惰性次优，而网络仅依赖于最强的场景识别模态。也就是说会导致只考虑更强的模态，而忽略了更弱的模态。

针对上述问题，作者提出了一种新颖的对比学习目标，取名为TupleInfoNCE。主要动机是为了促进多模态融合，通过利用增强锚样本生成的正样本，并利用其元素不一定对应的具有挑战性的负样本。不仅基于正负对应关系来对比元组，而且还通过使用描述不同场景的模态组合成新的负元组来进行对比。这些负样本鼓励模型，学习检查输入元组中元素间的对应关系，确保不忽略弱模态和模态协同的作用。为了生成这样的负样本，作者提出了一种元组干扰策略，并基于互信息为其提供了理论依据。在本文中，将分别介绍：自监督学习的相关内容、论文的问题解决思路与方法、重新思考InfoNCE、TupleInfoNCE 的设计与实现、实验、进一步分析和讨论以及总结。

1、自监督学习的相关内容

一、自监督的多模态学习

自监督学习 (SSL) 使用辅助任务从原始数据中学习数据表示，而无需使用额外的标签，有助于提高下游任务的性能。最近，对 SSL 的研究利用了数据的多模态属性。常见的策略是探索不同视图之间的自然对应关系，并使用对比学习 (CL) 通过将描述同一场景的视图推得更近，同时将不同场景的视图推开来学习表征。

将这一系列方法称为跨模态embedding，它侧重于提取跨模态共享的信息，而不是直接检查融合表示，未能充分探索多模态融合的模态协同作用。

二、对比表示学习

CL（Contrastive Learning）是一种自监督学习（SSL），由于它对表征学习带来了巨大的改进，因此受到了越来越多的关注。根据数据的模态，它可以分为基于单模态的和基于多模态的 CL。 CL 的一个未充分探索的挑战是如何选择硬负样本来构建负对。

1）大多数现有方法，要么增加批量大小，要么保持大内存库，从而导致大内存需求。

2）最近，一些作品从互信息（MI）的角度研究了CL。也有认为视图之间的互信息MI 应该通过数据增强来减少，同时保持与任务相关的信息完整。

3）有的工作展示了 CL 算法系列最大化了多“视图”之间的互信息MI 下限，其中典型视图来自图像增强，并发现负样本和视图的选择对这些算法至关重要。

我们在此观察的基础上，建立了一个用于选择对比样本的优化框架。

三、AutoML

AutoML旨在自动创建优于手动设计的模型。神经架构搜索 (NAS)、数据增强策略搜索和损失函数搜索的进展极大地提高了神经网络的性能。但是这些方法中的大多数都集中在有监督学习设置上。最近，在无监督和自监督学习场景中，开发 AutoML技术引起了更多关注。

1）UnNAS展示了通过自监督寻找更好的神经架构的潜力。

2）InfoMin和SelfAugment探索如何在 2D 图像上为 CL 搜索更好的数据增强。

在作者的工作中，专注于无监督地优化多模态 CL 框架的两个关键组件：数据增强和负采样策略，以前没有针对通用多模态输入进行过探索。

2、论文的问题解决思路与方法

问题一：如何进行多模态表示学习的对比，并充分利用多模态的协同效应。

解决思路与方法：

人类对世界的感知自然是多模态的，看到、听到和感觉到的都包含不同种类的信息，各种形式相互补充和消除歧义，形成世界的代表。因此目标是训练机器融合这样的多模态输入，以自监督的方式产生这样的表示，而无需手动标注。

目前，一种越来越流行的自监督表示学习范式是对比学习，它通过优化对比损失和解决实例判别任务来学习特征表示。最近有几项工作探索了多模态表示学习的对比学习。其中，大多数方法学习了跨模态嵌入空间，它们对比不同的模态以捕获跨模态共享的信息。然而，这些方法没有直接检查多模态的融合表示，未能充分利用多模态协同效应。为了解决这个问题，有的方法提出了一种 RGB-D 表示学习框架来直接对比点——像素对。但是，它仅限于两种模态。

因此，作者提出：将所有模态连接成一个元组，对比多模态输入元组，而不是对比不同的数据模态。然后对比正负元组对应关系，而其中每个元组元素对应着一个模态。通过学习表示，以便将描述同一场景（多模态数据集）的元组放在一起，而将来自不同场景的元组分开。这比跨模态对比学习更具有普遍性。它不仅支持跨模态提取共享的信息，还允许模态相互消除歧义并保留其特定信息，从而产生更好的融合表示。

问题二：需要对比哪些元组样本？

解决思路与方法：

对比元组并不像对比单个元素那么简单，特别是：如果希望学习的表示对元组中每个元素的信息进行编码，并充分探索它们之间的协同作用。因此，核心挑战是：要对比哪些元组样本。

过去有研究提出，如果始终对比包含来自同一场景的相应元素的元组，可能会收敛到惰性次优，而且网络仅依赖于最强的场景识别模态。也就是说，这种方法可能只考虑更强的模态，而忽略了更弱的模态。

因此，为了避免弱模态被忽略并促进模态融合，作者提出：需要与更具挑战性的负样本进行对比。此外，还需要优化正样本，以便对比学习可以保持正样本和锚样本之间的共享信息，同时抽象出无效的因素。值得注意的是，正样本和锚样本之间的强烈差异通常会导致共享信息更小，但对无效因素的不变性程度更高。因此需要适当的权衡。

问题三：如何生成更具挑战性的负样本，并进行优化权衡。

解决思路与方法：

作者提出了一种新颖的对比学习目标TupleInfoNCE，与流行的 InfoNCE 损失不同，TupleInfoNCE 的设计动机是为了促进多模态融合。TupleInfoNCE通过利用增强锚样本生成的正样本，并利用其元素不一定对应的具有挑战性的负样本。不仅基于正负对应关系来对比元组，而且还通过使用描述不同场景的模态组合新的负元组来对比元组。通过这些额外的负元组进行训练，会鼓励模型学习检查输入的同一元组中模态元素之间的对应关系，确保不忽略弱模态和模态协同作用。为了生成这样的负样本，作者提出了一种元组干扰策略，并为其提供了理论基础：基于互信息为这种方法的工作原理提供了理论依据。

并且，作者提出了一种样本优化算法来生成正样本和负样本，以最大限度地提高训练效率。通过引入可优化的超参数来控制负样本和正样本分布。这允许通过超参数优化过程优化样本。并定义了关于这些超参数的奖励函数，并通过无监督的特征评估来衡量学习表示的质量。将无监督特征评估置于优化循环中，更新这些超参数以找到样本优化的TupleInfoNCE。

样本优化的 TupleInfoNCE概览设计图如下。

图1 样本优化的 TupleInfoNCE概览

3、重新思考InfoNCE

一、回顾InfoNCE 损失

在描述方法之前，首先回顾在对比表示学习中广泛采用的 InfoNCE 损失，然后讨论了它对多模态输入的限制。

二、多模态输入的问题设置

弱模态往往在很大程度上被忽视，模式之间的协同作用没有得到充分利用。当 K > 2 时，当不同模态的信息量变化很大时，问题变得更加严重。

下图提供了直观的解释。

图2 信息图

4、TupleInfoNCE 的设计与实现

为了减轻 InfoNCE 忽略弱模态和模态协同的局限性，作者提出了一个新的 TupleInfoNCE 目标。针对提出的TupleInfoNCE目标，明确设计了如下三个方面用于促进多模态融合。

1）利用元组干扰策略来生成具有挑战性的负样本，从而防止网络变得懒惰而只关注强模态。

2）此外，引入了可优化的数据增强，这些数据增强应用于锚样本以生成正样本。

3）优化正样本和负样本，以平衡每种模态贡献的信息。

4.1 元组干扰和增强

元组干扰生成具有挑战性的负样本，对于学习对比学习中的有效表示至关重要，特别是在多模态融合设置的情况下，其中强模态倾向于主导学习的表示。作者提出了一种元组干扰策略来生成负样本，其中并非所有模态都对应，并且某些模态表现出不同的场景。

因此，为了正确区分正样本和 k 扰动的负样本，学习的表示必须对第 k 个模态的信息进行编码，因为 K 元组只能由于第 k 个模态的差异而变为负样本。

因此，受 k 扰动的负样本鼓励了每种模态与待探索的其余模态之间的相关性。

作者设计：分别扰乱每种模态并生成 K 种类型的负样本，从而来增强 vanilla InfoNCE 目标。这加强了多模态输入中，每个特定模态的表示学习。使用 αk 来表示 k 扰动负样本的比率。直观地说，如果使用的 αk 越大，那么就越强调第 k 个模态。

为了进一步平衡融合表示中每种模态的贡献，通过使用超参数 β 参数化这些数据增强，并使 β 可针对不同模态进行优化。

4.2 目标函数

在下图中，为 TupleInfoNCE 目标提供了一个示例。可以优化超参数 α 和 β ，以允许灵活控制下一节中介绍的不同模态的贡献。

图 3 RGB图、深度图和法线贴图融合的 TupleInfoNCE 目标示例

4.3 样本优化

为元组干扰和增强而设计的超参数 α 和 β ，在TupleInfoNCE目标设计中起着关键作用。每组α和β将对应一个特定目标，并且完全优化将产生多模态特征编码器 gαβ。手动设置这些超参数并不可靠，促使探索优化这些超参数的方法。主要有两个挑战需要解决:

1）首先是评估挑战：需要一种方法来以无监督的方式评估多模态特征编码器 gαβ 的质量，因为大多数现有工作已经证明 InfoNCE 损失本身并不是一个好的评估器。

2）第二个是优化挑战：需要一个有效的优化策略，用来避免详尽地检查不同的超参数并从头开始重复训练整个网络。

接下来将分别解释如何处理这些挑战，以优化不同类型负样本的比率α，以及增强正样本的超参数β。

4.3.1 优化负样本

为了在无监督的情况下评估学习表示中的模态融合质量，作者提出使用跨模态鉴别作为替代任务。为了有效地优化 α，采用了在优化α和优化具有固定α的主要目标之间交替的双层优化方案。将在下面详细介绍这些设计。

跨模态区分

TupleInfoNCE 与普通InfoNCE的不同之处在于：它更多地强调每个模态 vk 以及

它适当地平衡了不同模态的贡献，并与下游语义推理任务具有高度相关性。需要注意：处理跨模态判别任务中缺失的模态，将采用补充材料中介绍的dropout训练策略。

双层优化

现在，描述如何通过一次性网络训练有效地优化 R(α)。编写优化问题如下：

在验证集上评估每个编码器的贡献，并使用 REINFORCE 更新 α 的分布，如下所示：

4.3.2 优化正样本

与优化α类似，需要一个奖励函数来以无监督的方式评估特征编码器gαβ 关于β。一种直接的方法是采用公式 5 中定义的总跨模态识别精度。

通过实验，观察到两种现象，使得这种简单的适应无法有效地优化 β。

分别使用 β 和 ζ 来表示用于训练和验证的数据增强参数，它们不必相同。

1）如果手动将 ζ 设置为固定，则最大化总准确度的最优 β 与 ζ 高度相关，并且无法生成真正好的正样本。

2）如果将 ζ 设置为与 β 相同并一起优化它们，通常在不应用数据增强时获得最佳的总准确度，尽管已经证明一定程度的数据增强对于对比学习很重要。

因此，β 优化需要更好的奖励函数。

为了反映 ζ 的影响，将总跨模态识别精度重写为：

受上述观察的启发，将奖励函数设计为：

其中 λ 是平衡参数，βmax 表示用于归一化目的的预定义增强参数上限。

R(β) 的优化方式与 R(α) 的优化方式相同，在单个训练过程中交替优化 β 和 g。在算法 1 中进一步结合了 R(α)、R(β) 和多模态编码器g的优化，其中当 epoch 数为偶数时更新 α，否则更新 β。

5、实验

在本节中，通过迁移学习来评估方法，即对下游任务和数据集进行微调。具体来说，首先使用提出的 TupleInfoNCE 在每个数据集上预训练主干网络，而无需任何额外数据。然后，使用预训练的权重作为初始化，并进一步细化它们以用于目标下游任务。在这种情况下，好的特征可以直接导致下游任务的性能提升。

同时，展示了三个流行的多模态任务的结果：NYUv2上的语义分割，SUN RGB-D上的 3D 对象检测，以及 MOSEI 和 MOSI 的情感分析。然后，提供了广泛的消融研究、分析和可视化，以证明系统的设计选择是合理的。

5.1 NYUv2 语义分割设置

首先在 NYUv2上进行实验，看看方法是否可以帮助多模态语义场景理解。NYUv2 包含 1,449 张室内 RGB-D 图像，其中 795 张用于训练，654 张用于测试。在此任务中使用三种模式：RGB、深度和法线贴图。采用的数据增强策略包括随机裁剪、旋转和颜色抖动。使用 ESANet，一种基于 ResNet 的高效编码器，作为主干。使用常见的 40 类标签设置和平均 IoU(mIoU) 作为评估指标。

将方法与从头开始的训练基线，以及最新的自监督多模态表示学习方法（包括 CMC 、MMV FAC 和 MISA ）进行比较，这些方法都基于跨模态嵌入。此外，包括一个 InfoNCE 基线，直接对比多模态输入元组，而不会干扰元组和样本优化。还包括有监督的预训练方法以确保完整性。

结果如表 1 显示，之前性能最佳的方法 MISA 将分割 mIoU 比从零开始训练的基线提高了 3.3%。使用 InfoNCE 时，改进下降到 2.0%。作者的方法比 train-from scratch 基线提高了 8.0%。从 40.1% 到 48.1% 的改进，证实了可以产生更好的融合表示来提高 RGB-D 场景的分割性能。值得注意的是，提出的 TupleNCE 虽然仅在 NYUv2 上自监督预训练，但仅比监督预训练方法低约 3%。

表 1 NYUv2 上的语义分割结果

5.2 SUN RGB-D 3D 对象检测

第二个实验研究了 TupleInfoNCE 如何用于 SUN RGB-D 数据集中的 3D 对象检测。SUN RGB-D 包含一个具有约 5K 单视图 RGB-D 扫描的训练集和一个具有约 5K 扫描的测试集。扫描带有来自 37 个类别的对象的面向 3D 的非模态边界框标注。在这个实验中使用了三种模式：3D 点云、RGB 颜色和高度。

这里使用的数据增强是点云的旋转、RGB 颜色的抖动和高度的随机噪声。使用 VoteNet 作为主干，它利用 PointNet++ 来处理深度点云，并支持附加 RGB 或高度信息作为附加输入。将方法与包括 InfoNCE、CMC 和 MISA在内的基线方法进行比较。使用 mAP@0.25 作为的评估指标。

结果如表 2，显示了对象检测结果。结果发现以前的自监督方法似乎难以处理 3D 任务：CMC 和 MISA 对从头开始训练的基线的改进非常有限。InfoNCE的改进也非常微不足道（0.5%），大概是因为过分强调来自强模态的模态特定信息可能会牺牲弱模态以及学习过程中的模态协同作用。

相比之下，TupleInfoNCE 在从头开始训练的基线上实现了 1.7% 的 mAP 改进，是 InfoNCE 实现的改进的三倍多。与 InfoNCE 的比较，直接验证了所提出的 TupleInfoNCE 目标和样本优化机制的有效性。

表 2 SUN RGB-D 上的 3D 对象检测结果

5.3 多模式情感分析

第三个实验使用 MOSI和 MOSEI 数据集研究多模态情感分析，两者都为每个话语提供单词对齐的多模态信号（语言、视觉和声学）。MOSI 包含 2198 个主观话语视频片段。话语是用 [-3,3] 之间的连续意见分数手动标注的，其中 -3/+3 表示强烈的负面/正面情绪。MOSEI 是对 MOSI 的改进，具有更多的话语、更多样的样本、说话者和主题。遵循最近且最先进的多模态自监督表示学习方法 MISA，使用从原始原始数据中预先提取的特征，这不允许直观的数据增强方式。

因此，在这个实验中只优化了负样本。使用与 MISA相同的主干进行公平比较。使用二进制精度（Acc-2）、7 级精度（Acc-7）和 F-Score 作为评估指标。

结果如表 3 和表 4 所示，方法在这些极具挑战性和竞争性的数据集上，始终优于以前的方法。例如，与以前性能最好的方法 MISA 相比，Acc-7 在 MOSI 上从 42.3 上升到 43.3，从 52.2 上升到MOSEI 52.7。由于这两种方法共享相同的网络主干，并且仅在学习融合表示的策略上有所不同，因此改进为方法的有效性提供了强有力的证据。

表 3 MOSI 上的多模态情感分析结果

表 4 MOSEI 上的多模态情感分析结果

6、进一步分析和讨论

一、样本优化的功效

在有和没有样本优化的情况下，进行消融研究，以量化其功效。

结果发现，在不优化负样本的情况下统一设置 αk 会导致 NYUv2 语义分割任务的 mIoU 下降 1.7%，SUN RGB-D 3D 对象检测任务的 mAP 下降 0.5%，MOSI 上的 Acc-7 下降 0.6，Acc-7 下降 0.4在 MOSEI 上。

而手动设计数据增强策略不像 [28] 中那样优化正样本，会导致 NYUv2 上的 1.1 mIoU 下降和 SUN RGB-D 上的 0.6 mAP 下降。

此外，还检查了优化的负采样策略以及数据增强策略。在 NYUv2 数据集上，结果发现 RGB、深度和法线中表现最好的负采样率大约为 2:1:1，表明在融合表示中更加强调 RGB。

至于数据增强策略，尽管在 NYUv2 上对所有三种模态使用相同类型的数据增强，但最佳增强参数因模式而异。考虑使用表示旋转角度的超参数进行图像旋转，结果发现 40 度是 RGB 图像的最佳超参数，而 10 度是深度和法线图的最佳超参数。

二、负样本优化的奖励设计

在前面介绍了跨模态判别作为负样本优化的替代任务，并认为公式 5 中的总跨模态判别精度 R(α) 是一个很好的奖励函数。在这里提供经验验证。

改变 k 型负样本的比率 αk，同时保持其余类型的相对比率不变。通过固定的负采样率训练整个网络，并评估 R(α) 和下游任务的性能。如图 4 所示，调整不同类型负样本的比例会影响代理任务的准确率 R(α)，与下游任务具有高度相关性。一种负样本的比例太低和太高都会导致 R(α) 偏低。有一个对应于最佳 R(α) 的甜蜜点。实验表明，这个甜蜜点也对应于下游任务的最佳性能。