前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICCV | TupleInfoNCE 的对比多模态融合

ICCV | TupleInfoNCE 的对比多模态融合

作者头像
计算机视觉
发布于 2023-02-24 07:36:22
发布于 2023-02-24 07:36:22
1.1K0
举报

ICCV | TupleInfoNCE 的对比多模态融合

论文作者:Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi

1清华大学 2谷歌研究院 3斯坦福大学 4加州大学伯克利分校 5北京大学

笔者个人体会

人类对世界的感知自然是多模态的。我们看到、听到和感觉到的都包含不同种类的信息。各种形式相互补充和消除歧义,形成世界的代表。当前目标是训练机器融合这样的多模态输入,以自监督的方式产生这样的表示,而无需手动标注

一种越来越流行的自监督表示学习范式是对比学习,它通过优化对比损失和解决实例判别任务来学习特征表示。最近有多项工作探索了多模态表示学习的对比学习。然而,大多数传统方法学习了跨模态嵌入空间,通过对比不同的模态来学习它们之间共享的信息,但未能充分利用多模态的协同效应。因此,作者提出建议对比多模态输入元组,而不是对比不同的数据模态,将所有模态连接成一个元组,然后对比正负元组对应关系。这样做的优势:不仅支持跨模态提取共享信息,还允许模态相互消除歧义并保留其特定信息,从而产生更好的融合表征

当然,对比元组并不像对比单个元素那么简单,特别的是:这里的目标是希望学习的表征对元组中每个元素的信息进行编码,并充分探索它们之间的协同作用。进一步,带来的核心挑战是:要对比哪些元组样本?过去的研究表明:如果始终对比包含来自同一场景的相应元素的元组,会导致模型可能收敛到惰性次优,而网络仅依赖于最强的场景识别模态。也就是说会导致只考虑更强的模态,而忽略了更弱的模态。

针对上述问题,作者提出了一种新颖的对比学习目标,取名为TupleInfoNCE。主要动机是为了促进多模态融合,通过利用增强锚样本生成的正样本,并利用其元素不一定对应的具有挑战性的负样本。不仅基于正负对应关系来对比元组,而且还通过使用描述不同场景的模态组合成新的负元组来进行对比。这些负样本鼓励模型,学习检查输入元组中元素间的对应关系,确保不忽略弱模态和模态协同的作用。为了生成这样的负样本,作者提出了一种元组干扰策略,并基于互信息为其提供了理论依据。在本文中,将分别介绍:自监督学习的相关内容、论文的问题解决思路与方法、重新思考InfoNCE、TupleInfoNCE 的设计与实现、实验、进一步分析和讨论以及总结

1、自监督学习的相关内容

一、自监督的多模态学习

自监督学习 (SSL) 使用辅助任务从原始数据中学习数据表示,而无需使用额外的标签,有助于提高下游任务的性能。最近,对 SSL 的研究利用了数据的多模态属性。常见的策略是探索不同视图之间的自然对应关系,并使用对比学习 (CL) 通过将描述同一场景的视图推得更近,同时将不同场景的视图推开来学习表征。

将这一系列方法称为跨模态embedding,它侧重于提取跨模态共享的信息,而不是直接检查融合表示,未能充分探索多模态融合的模态协同作用

二、对比表示学习

CL(Contrastive Learning)是一种自监督学习(SSL),由于它对表征学习带来了巨大的改进,因此受到了越来越多的关注。根据数据的模态,它可以分为基于单模态的和基于多模态的 CL。 CL 的一个未充分探索的挑战是如何选择硬负样本来构建负对。

1)大多数现有方法,要么增加批量大小,要么保持大内存库,从而导致大内存需求。

2)最近,一些作品从互信息(MI)的角度研究了CL。也有认为视图之间的互信息MI 应该通过数据增强来减少,同时保持与任务相关的信息完整。

3)有的工作展示了 CL 算法系列最大化了多“视图”之间的互信息MI 下限,其中典型视图来自图像增强,并发现负样本和视图的选择对这些算法至关重要。

我们在此观察的基础上,建立了一个用于选择对比样本的优化框架。

三、AutoML

AutoML旨在自动创建优于手动设计的模型。神经架构搜索 (NAS)、数据增强策略搜索和损失函数搜索的进展极大地提高了神经网络的性能。但是这些方法中的大多数都集中在有监督学习设置上。最近,在无监督和自监督学习场景中,开发 AutoML技术引起了更多关注。

1)UnNAS展示了通过自监督寻找更好的神经架构的潜力。

2)InfoMin和SelfAugment探索如何在 2D 图像上为 CL 搜索更好的数据增强。

在作者的工作中,专注于无监督地优化多模态 CL 框架的两个关键组件:数据增强和负采样策略,以前没有针对通用多模态输入进行过探索。

2、论文的问题解决思路与方法

问题一:如何进行多模态表示学习的对比,并充分利用多模态的协同效应

解决思路与方法:

人类对世界的感知自然是多模态的,看到、听到和感觉到的都包含不同种类的信息,各种形式相互补充和消除歧义,形成世界的代表。因此目标是训练机器融合这样的多模态输入,以自监督的方式产生这样的表示,而无需手动标注。

目前,一种越来越流行的自监督表示学习范式是对比学习,它通过优化对比损失和解决实例判别任务来学习特征表示。最近有几项工作探索了多模态表示学习的对比学习。其中,大多数方法学习了跨模态嵌入空间,它们对比不同的模态以捕获跨模态共享的信息。然而,这些方法没有直接检查多模态的融合表示,未能充分利用多模态协同效应。为了解决这个问题,有的方法提出了一种 RGB-D 表示学习框架来直接对比点——像素对。但是,它仅限于两种模态。

因此,作者提出:将所有模态连接成一个元组,对比多模态输入元组,而不是对比不同的数据模态。然后对比正负元组对应关系,而其中每个元组元素对应着一个模态。通过学习表示,以便将描述同一场景(多模态数据集)的元组放在一起,而将来自不同场景的元组分开。这比跨模态对比学习更具有普遍性。它不仅支持跨模态提取共享的信息,还允许模态相互消除歧义并保留其特定信息,从而产生更好的融合表示

问题二:需要对比哪些元组样本

解决思路与方法:

对比元组并不像对比单个元素那么简单,特别是:如果希望学习的表示对元组中每个元素的信息进行编码,并充分探索它们之间的协同作用。因此,核心挑战是:要对比哪些元组样本。

过去有研究提出,如果始终对比包含来自同一场景的相应元素的元组,可能会收敛到惰性次优,而且网络仅依赖于最强的场景识别模态。也就是说,这种方法可能只考虑更强的模态,而忽略了更弱的模态。

因此,为了避免弱模态被忽略并促进模态融合,作者提出:需要与更具挑战性的负样本进行对比。此外,还需要优化正样本,以便对比学习可以保持正样本和锚样本之间的共享信息,同时抽象出无效的因素。值得注意的是,正样本和锚样本之间的强烈差异通常会导致共享信息更小,但对无效因素的不变性程度更高。因此需要适当的权衡。

问题三:如何生成更具挑战性的负样本,并进行优化权衡

解决思路与方法:

作者提出了一种新颖的对比学习目标TupleInfoNCE,与流行的 InfoNCE 损失不同,TupleInfoNCE 的设计动机是为了促进多模态融合。TupleInfoNCE通过利用增强锚样本生成的正样本,并利用其元素不一定对应的具有挑战性的负样本。不仅基于正负对应关系来对比元组,而且还通过使用描述不同场景的模态组合新的负元组来对比元组。通过这些额外的负元组进行训练,会鼓励模型学习检查输入的同一元组中模态元素之间的对应关系,确保不忽略弱模态和模态协同作用。为了生成这样的负样本,作者提出了一种元组干扰策略,并为其提供了理论基础:基于互信息为这种方法的工作原理提供了理论依据。

并且,作者提出了一种样本优化算法来生成正样本和负样本,以最大限度地提高训练效率。通过引入可优化的超参数来控制负样本和正样本分布。这允许通过超参数优化过程优化样本。并定义了关于这些超参数的奖励函数,并通过无监督的特征评估来衡量学习表示的质量。将无监督特征评估置于优化循环中,更新这些超参数以找到样本优化的TupleInfoNCE。

样本优化的 TupleInfoNCE概览设计图如下。

图1 样本优化的 TupleInfoNCE概览

3、重新思考InfoNCE

一、回顾InfoNCE 损失

在描述方法之前,首先回顾在对比表示学习中广泛采用的 InfoNCE 损失,然后讨论了它对多模态输入的限制。

二、多模态输入的问题设置

弱模态往往在很大程度上被忽视,模式之间的协同作用没有得到充分利用。当 K > 2 时,当不同模态的信息量变化很大时,问题变得更加严重。

下图提供了直观的解释。

图2 信息图

4、TupleInfoNCE 的设计与实现

为了减轻 InfoNCE 忽略弱模态和模态协同的局限性,作者提出了一个新的 TupleInfoNCE 目标。针对提出的TupleInfoNCE目标,明确设计了如下三个方面用于促进多模态融合。

1)利用元组干扰策略来生成具有挑战性的负样本,从而防止网络变得懒惰而只关注强模态。

2)此外,引入了可优化的数据增强,这些数据增强应用于锚样本以生成正样本。

3)优化正样本和负样本,以平衡每种模态贡献的信息

4.1 元组干扰和增强

元组干扰生成具有挑战性的负样本,对于学习对比学习中的有效表示至关重要,特别是在多模态融合设置的情况下,其中强模态倾向于主导学习的表示。作者提出了一种元组干扰策略来生成负样本,其中并非所有模态都对应,并且某些模态表现出不同的场景。

因此,为了正确区分正样本和 k 扰动的负样本,学习的表示必须对第 k 个模态的信息进行编码,因为 K 元组只能由于第 k 个模态的差异而变为负样本。

因此,受 k 扰动的负样本鼓励了每种模态与待探索的其余模态之间的相关性。

作者设计:分别扰乱每种模态并生成 K 种类型的负样本,从而来增强 vanilla InfoNCE 目标。这加强了多模态输入中,每个特定模态的表示学习。使用 αk 来表示 k 扰动负样本的比率。直观地说,如果使用的 αk 越大,那么就越强调第 k 个模态

为了进一步平衡融合表示中每种模态的贡献,通过使用超参数 β 参数化这些数据增强,并使 β 可针对不同模态进行优化。

4.2 目标函数

在下图中,为 TupleInfoNCE 目标提供了一个示例。可以优化超参数 α 和 β ,以允许灵活控制下一节中介绍的不同模态的贡献。

图 3 RGB图、深度图和法线贴图融合的 TupleInfoNCE 目标示例

4.3 样本优化

为元组干扰和增强而设计的超参数 α 和 β ,在TupleInfoNCE目标设计中起着关键作用。每组α和β将对应一个特定目标,并且完全优化将产生多模态特征编码器 gαβ。手动设置这些超参数并不可靠,促使探索优化这些超参数的方法。主要有两个挑战需要解决:

1)首先是评估挑战:需要一种方法来以无监督的方式评估多模态特征编码器 gαβ 的质量,因为大多数现有工作已经证明 InfoNCE 损失本身并不是一个好的评估器。

2)第二个是优化挑战:需要一个有效的优化策略,用来避免详尽地检查不同的超参数并从头开始重复训练整个网络。

接下来将分别解释如何处理这些挑战,以优化不同类型负样本的比率α,以及增强正样本的超参数β。

4.3.1 优化负样本

为了在无监督的情况下评估学习表示中的模态融合质量,作者提出使用跨模态鉴别作为替代任务。为了有效地优化 α,采用了在优化α和优化具有固定α的主要目标 之间交替的双层优化方案。将在下面详细介绍这些设计。

跨模态区分

TupleInfoNCE 与普通InfoNCE的不同之处在于:它更多地强调每个模态 vk 以及

它适当地平衡了不同模态的贡献,并与下游语义推理任务具有高度相关性。需要注意:处理跨模态判别任务中缺失的模态,将采用补充材料中介绍的dropout训练策略。

双层优化

现在,描述如何通过一次性网络训练有效地优化 R(α)。编写优化问题如下:

在验证集上评估每个编码器的贡献,并使用 REINFORCE 更新 α 的分布,如下所示:

4.3.2 优化正样本

与优化α类似,需要一个奖励函数来以无监督的方式评估特征编码器gαβ 关于β。一种直接的方法是采用公式 5 中定义的总跨模态识别精度。

通过实验,观察到两种现象,使得这种简单的适应无法有效地优化 β。

分别使用 β 和 ζ 来表示用于训练和验证的数据增强参数,它们不必相同。

1)如果手动将 ζ 设置为固定,则最大化总准确度的最优 β 与 ζ 高度相关,并且无法生成真正好的正样本。

2)如果将 ζ 设置为与 β 相同并一起优化它们,通常在不应用数据增强时获得最佳的总准确度,尽管已经证明一定程度的数据增强对于对比学习很重要。

因此,β 优化需要更好的奖励函数。

为了反映 ζ 的影响,将总跨模态识别精度重写为:

受上述观察的启发,将奖励函数设计为:

其中 λ 是平衡参数,βmax 表示用于归一化目的的预定义增强参数上限。

R(β) 的优化方式与 R(α) 的优化方式相同,在单个训练过程中交替优化 β 和 g。在算法 1 中进一步结合了 R(α)、R(β) 和多模态编码器g的优化,其中当 epoch 数为偶数时更新 α,否则更新 β。

5、实验

在本节中,通过迁移学习来评估方法,即对下游任务和数据集进行微调。具体来说,首先使用提出的 TupleInfoNCE 在每个数据集上预训练主干网络,而无需任何额外数据。然后,使用预训练的权重作为初始化,并进一步细化它们以用于目标下游任务。在这种情况下,好的特征可以直接导致下游任务的性能提升。

同时,展示了三个流行的多模态任务的结果:NYUv2上的语义分割,SUN RGB-D上的 3D 对象检测,以及 MOSEI 和 MOSI 的情感分析。然后,提供了广泛的消融研究、分析和可视化,以证明系统的设计选择是合理的。

5.1 NYUv2 语义分割设置

首先在 NYUv2上进行实验,看看方法是否可以帮助多模态语义场景理解。NYUv2 包含 1,449 张室内 RGB-D 图像,其中 795 张用于训练,654 张用于测试。在此任务中使用三种模式:RGB、深度和法线贴图。采用的数据增强策略包括随机裁剪、旋转和颜色抖动。使用 ESANet,一种基于 ResNet 的高效编码器,作为主干。使用常见的 40 类标签设置和平均 IoU(mIoU) 作为评估指标。

将方法与从头开始的训练基线,以及最新的自监督多模态表示学习方法(包括 CMC 、MMV FAC 和 MISA )进行比较,这些方法都基于跨模态嵌入。此外,包括一个 InfoNCE 基线,直接对比多模态输入元组,而不会干扰元组和样本优化。还包括有监督的预训练方法以确保完整性。

结果如表 1 显示,之前性能最佳的方法 MISA 将分割 mIoU 比从零开始训练的基线提高了 3.3%。使用 InfoNCE 时,改进下降到 2.0%。作者的方法比 train-from scratch 基线提高了 8.0%。从 40.1% 到 48.1% 的改进,证实了可以产生更好的融合表示来提高 RGB-D 场景的分割性能。值得注意的是,提出的 TupleNCE 虽然仅在 NYUv2 上自监督预训练,但仅比监督预训练方法低约 3%。

表 1 NYUv2 上的语义分割结果

5.2 SUN RGB-D 3D 对象检测

第二个实验研究了 TupleInfoNCE 如何用于 SUN RGB-D 数据集中的 3D 对象检测。SUN RGB-D 包含一个具有约 5K 单视图 RGB-D 扫描的训练集和一个具有约 5K 扫描的测试集。扫描带有来自 37 个类别的对象的面向 3D 的非模态边界框标注。在这个实验中使用了三种模式:3D 点云、RGB 颜色和高度。

这里使用的数据增强是点云的旋转、RGB 颜色的抖动和高度的随机噪声。使用 VoteNet 作为主干,它利用 PointNet++ 来处理深度点云,并支持附加 RGB 或高度信息作为附加输入。将方法与包括 InfoNCE、CMC 和 MISA在内的基线方法进行比较。使用 mAP@0.25 作为的评估指标。

结果如表 2, 显示了对象检测结果。结果发现以前的自监督方法似乎难以处理 3D 任务:CMC 和 MISA 对从头开始训练的基线的改进非常有限。InfoNCE的改进也非常微不足道(0.5%),大概是因为过分强调来自强模态的模态特定信息可能会牺牲弱模态以及学习过程中的模态协同作用。

相比之下,TupleInfoNCE 在从头开始训练的基线上实现了 1.7% 的 mAP 改进,是 InfoNCE 实现的改进的三倍多。与 InfoNCE 的比较,直接验证了所提出的 TupleInfoNCE 目标和样本优化机制的有效性。

表 2 SUN RGB-D 上的 3D 对象检测结果

5.3 多模式情感分析

第三个实验使用 MOSI和 MOSEI 数据集研究多模态情感分析,两者都为每个话语提供单词对齐的多模态信号(语言、视觉和声学)。MOSI 包含 2198 个主观话语视频片段。话语是用 [-3,3] 之间的连续意见分数手动标注的,其中 -3/+3 表示强烈的负面/正面情绪。MOSEI 是对 MOSI 的改进,具有更多的话语、更多样的样本、说话者和主题。遵循最近且最先进的多模态自监督表示学习方法 MISA,使用从原始原始数据中预先提取的特征,这不允许直观的数据增强方式。

因此,在这个实验中只优化了负样本。使用与 MISA相同的主干进行公平比较。使用二进制精度(Acc-2)、7 级精度(Acc-7)和 F-Score 作为评估指标。

结果如表 3 和表 4 所示,方法在这些极具挑战性和竞争性的数据集上,始终优于以前的方法。例如,与以前性能最好的方法 MISA 相比,Acc-7 在 MOSI 上从 42.3 上升到 43.3,从 52.2 上升到MOSEI 52.7。由于这两种方法共享相同的网络主干,并且仅在学习融合表示的策略上有所不同,因此改进为方法的有效性提供了强有力的证据。

表 3 MOSI 上的多模态情感分析结果

表 4 MOSEI 上的多模态情感分析结果

6、进一步分析和讨论

一、样本优化的功效

在有和没有样本优化的情况下,进行消融研究,以量化其功效。

结果发现,在不优化负样本的情况下统一设置 αk 会导致 NYUv2 语义分割任务的 mIoU 下降 1.7%,SUN RGB-D 3D 对象检测任务的 mAP 下降 0.5%,MOSI 上的 Acc-7 下降 0.6,Acc-7 下降 0.4在 MOSEI 上。

而手动设计数据增强策略不像 [28] 中那样优化正样本,会导致 NYUv2 上的 1.1 mIoU 下降和 SUN RGB-D 上的 0.6 mAP 下降。

此外,还检查了优化的负采样策略以及数据增强策略。在 NYUv2 数据集上,结果发现 RGB、深度和法线中表现最好的负采样率大约为 2:1:1,表明在融合表示中更加强调 RGB。

至于数据增强策略,尽管在 NYUv2 上对所有三种模态使用相同类型的数据增强,但最佳增强参数因模式而异。考虑使用表示旋转角度的超参数进行图像旋转,结果发现 40 度是 RGB 图像的最佳超参数,而 10 度是深度和法线图的最佳超参数。

二、负样本优化的奖励设计

在前面介绍了跨模态判别作为负样本优化的替代任务,并认为公式 5 中的总跨模态判别精度 R(α) 是一个很好的奖励函数。在这里提供经验验证。

改变 k 型负样本的比率 αk,同时保持其余类型的相对比率不变。通过固定的负采样率训练整个网络,并评估 R(α) 和下游任务的性能。如图 4 所示,调整不同类型负样本的比例会影响代理任务的准确率 R(α),与下游任务具有高度相关性。一种负样本的比例太低和太高都会导致 R(α) 偏低。有一个对应于最佳 R(α) 的甜蜜点。实验表明,这个甜蜜点也对应于下游任务的最佳性能。

图 4 总跨模态识别精度与下游任务性能之间的相关性

三、正样本优化的奖励设计

在公式 8 中,用于正样本优化的奖励函数是由两个观察结果驱动的:

提供实证研究来验证图 5 中的这些观察结果。从头到尾,用不同的 β 训练网络,以评估总的跨模态识别精度如何变化,同时在验证集上改变数据增强参数 ζ。此外,还评估了在更改训练时间数据增强参数 β 时,下游任务的性能如何变化。对两种类型的数据增强图像旋转和图像裁剪进行了实验,并获得了一致的观察结果。

在实验中,结果发现奖励函数足够强大,可以识别最佳训练时间数据增强参数。

四、对无信息模态的鲁棒性

TupleInfoNCE 强调了容易被忽略的模态。一个明显的问题是它是否对无信息模式具有鲁棒性。

对 MOSEI 多模态情感分析任务进行了实验,并添加了一个名为时间戳的无信息模态,它表示序列中的相对时间。结果显示,使用这四种模式,达到了 52.6 Acc-7,仅比以前低 0.1%。

四种模态中最终的负样本比率大致为 3(文本):3(视频):4(音频):1(时间戳),表明了方法成功地识别出“时间戳”不值得过多强调。

7、总结

该论文提出了使用对比学习 TupleInfoNCE 对多模态数据进行表示学习的新目标。

关键思想是:将多模态锚元组与包含受干扰模态的具有挑战性的负样本,以及通过可优化的数据增强过程。获得的更好的正样本进行对比。

此外,提供了TupleInfoNCE 为何起作用的理论基础,一种使用自监督方法来选择对比样本的优化 TupleInfoNCE 的算法,以及在广泛的多模态融合基准上显示消融和最先进性能的实验结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法
Pri3D:Can 3D Priors Help 2D Representation Learning? (ICCV2021) 代码地址:https://github.com/Sekunde/Pri3
3D视觉工坊
2022/03/11
6260
Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法
ICCV2023 室内场景自监督单目深度估计
本文方法是一种自监督的单目深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自监督深度估计困难的挑战。GasMono首先利用多视图几何方法获取粗糙的相机姿态,然后通过旋转和平移/尺度优化来进一步优化这些姿态。为了减轻低纹理的影响,该框架将视觉Transformer与迭代式自蒸馏机制相结合。通过在多个数据集上进行实验,展示了GasMono框架在室内自监督单目深度估计方面的最先进性能。
BBuf
2023/10/26
9860
ICCV2023 室内场景自监督单目深度估计
联合模态融合+图对比学习
多模态情感识别旨在识别多种模态中每个话语的情感,这在人机交互应用中越来越受到关注。当前基于图的方法未能同时描述对话中的全局上下文特征和局部多样的单模态特征。此外,随着图层数量的增加,它们很容易陷入过度平滑的情况。本文提出了一种用于多模态情感识别的联合模态融合和图对比学习方法(JOYFUL),其中多模态融合、对比学习和情感识别被联合优化。具体来说,我们首先设计了一种新的多模态融合机制,可以提供全局上下文和单模态特定特征之间的深度交互和融合。然后,我们引入了一个图对比学习框架,包括视图间和视图内对比损失,以学习更可区分的表示,适用于具有不同情绪的样本。对三个基准数据集的大量实验证明,JOYFUL相对于所有基线方法取得了最先进的性能。
Srlua
2024/12/09
1310
联合模态融合+图对比学习
多才多艺模型出现 | 捕捉每一个细节,多任务 + 多模态 + 自监督等Trick都不在话下!
面部表情识别(FER)是日常人类社交互动以及人机互动中成功进行的基本任务[1]。根植于人类感知的情境敏感和自上而下的方式,作者如何感知一个表情会随着(情感)情境和先验知识的变化而变化[7, 18, 53],以及其他各种因素[58]。相同的面部表情根据情境和上下文的不同可能会被感知为不同的含义[5, 16, 47]。Maier等人[39]最近的一项综述强调,为了开发与人类感知相一致的FER系统,作者应该考虑社会知识以及情境线索。从人类的角度来看,情境本质上是多模态的,不仅仅是视觉上可感知的,如同之前在计算机视觉中常处理的那样[31, 33, 59]。
集智书童公众号
2024/04/30
5250
多才多艺模型出现 | 捕捉每一个细节,多任务 + 多模态 + 自监督等Trick都不在话下!
开源 ∼600× fewer GPU days:在单个 GPU 上实现数据高效的多模态融合
∼600× fewer GPU days and ∼80× fewer image-text pairs
CreateAMind
2024/05/22
2660
开源 ∼600×  fewer GPU days:在单个 GPU 上实现数据高效的多模态融合
【论文复现】MSA+抑郁症模型总结(三)
随着社交媒体的蓬勃兴起,近年来多模态数据已成为研究焦点。用户们日益倾向于通过结合多种媒体形式(诸如文本搭配图像、文本配合音乐或视频等)来展现他们的观点和情绪。多模态情感分析(MSA)作为从多元化信息中捕捉情感要素以进行情感预测的前沿研究领域,备受瞩目。以往基于词汇、短语及其语义关系的文本情感分析手段,在面对复杂情感信息的捕捉时显得力不从心。而今,通过融入面部表情识别与语调分析,多模态信息(涵盖视觉、听觉以及文本转录内容)为我们提供了更为鲜活、详尽的情感描绘,使得情感传达更为精确且丰富。过往研究表明,不同模态之间往往潜藏着相互影响的深层联系。如下图所示,MSA展现出了其独特优势:例如,某些语句的情感倾向并不明确,可能因情境差异而蕴含多重情绪。但当融入相应的音频信息后,我们便能更精确地判定情感的正负倾向。然而,如何有效建模这些模态间的相互作用,仍是当前亟待解决的一大难题。
Eternity._
2024/11/11
3000
【论文复现】MSA+抑郁症模型总结(三)
对比学习(Contrastive Learning)在CV与NLP领域中的研究进展
目前NLP领域的经验,自监督预训练使用的数据量越大,模型越复杂,那么模型能够吸收的知识越多,对下游任务效果来说越好。这可能是自从Bert出现以来,一再被反复证明。
对白
2022/04/01
8890
对比学习(Contrastive Learning)在CV与NLP领域中的研究进展
蚂蚁:多模态方向的技术探索
视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。
NewBeeNLP
2024/06/04
3710
蚂蚁:多模态方向的技术探索
CENet及多模态情感计算实战
本文对 “Cross-Modal Enhancement Network for Multimodal Sentiment Analysis” 论文进行讲解和手把手复现教学,解决当下热门的多模态情感计算问题,并展示在MOSI和MOSEI两个数据集上的效果
Srlua
2024/12/02
3960
CENet及多模态情感计算实战
多模态情感分析与抑郁症检测:MMIM 模型的创新与应用全景
近年来,社交媒体的蓬勃发展以及智能手机摄像头质量的显著提升,推动了多模态数据呈爆炸式增长,涵盖电影、短视频等多种形式。在现实生活场景中,多模态数据主要源于视觉(图像)、听觉(语音)和转录文本三个渠道。这些数据往往蕴含着丰富的情感元素,而多模态情感分析(MSA)旨在挖掘并理解这些情感,已成为当下热门的研究领域。其重要性在于拥有诸多极具吸引力的应用场景,比如获取客户对产品的全面反馈,或衡量潜在投票者的投票意向等。通常,同一数据段中的不同模态相互补充,为语义和情感歧义的消除提供了更多线索。多模态融合作为 MSA 的核心环节,致力于从所有输入模态中提取并整合信息,以深入洞察数据背后的情感内涵。
用户11292525
2025/01/13
5690
最新综述 | SSL4Rec: 全面探索自监督学习时代的推荐算法 (含开源代码和资料)
TLDR: 本文全面综述了自监督学习(SSL)在推荐系统中的应用,深入分析了逾170篇论文。提出了一个涵盖九大推荐场景的自监督分类体系,详细探讨了对比学习、生成学习和对抗学习三种SSL范式,并在文中讨论了未来研究方向。
张小磊
2024/05/11
4650
最新综述 | SSL4Rec: 全面探索自监督学习时代的推荐算法 (含开源代码和资料)
深度学习时代下的RGB-D显著性目标检测研究进展
摘要:受人类的视觉注意力机制启发,显著性目标检测任务旨在定位给定场景中最吸引人注意的目标或区域。近年来, 随着深度相机的发展和普及, 深度图像已经被成功应用于各类计算机视觉任务, 这也为显著性目标检测技术提供了新思路。通过引入深度图像, 不仅能使计算机更加全面地模拟人类视觉系统, 而且深度图像所提供的结构、位置等补充信息也可以为低对比度、复杂背景等困难场景的检测提供新的解决方案。鉴于深度学习时代下RGB-D显著目标检测任务发展迅速,旨在从该任务关键问题的解决方案出发,对现有相关研究成果进行归纳、总结和梳理,并在常用RGB-D SOD数据集上进行不同方法的定量分析和定性比较。最后, 对该领域面临的挑战及未来的发展趋势进行总结与展望。
一点人工一点智能
2023/04/13
2.2K0
深度学习时代下的RGB-D显著性目标检测研究进展
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。
机器之心
2024/01/23
3770
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
6790
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
ICCV2023 SOTA 长短距离循环更新网络--LRRU介绍
本文介绍了一种名为长短距离循环更新(LRRU)网络的轻量级深度网络框架,用于深度补全。深度补全是指从稀疏的距离测量估计密集的深度图的过程。现有的深度学习方法使用参数众多的大型网络进行深度补全,导致计算复杂度高,限制了实际应用的可能性。相比之下,本文提出的LRRU网络首先利用学习到的空间变体核将稀疏输入填充以获得初始深度图,然后通过迭代更新过程灵活地更新深度图。迭代更新过程是内容自适应的,可以从RGB图像和待更新的深度图中学习到核权重。初始深度图提供了粗糙但完整的场景深度信息,有助于减轻直接从稀疏数据回归密集深度的负担。实验证明,LRRU网络在减少计算复杂度的同时实现了最先进的性能,更适用于深度补全任务。
BBuf
2023/11/05
7550
ICCV2023 SOTA 长短距离循环更新网络--LRRU介绍
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
AIGC 先锋科技
2024/07/08
4590
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
黄学东领衔,微软 Azure 认知服务研究团队重磅发布「视觉-语言-语音」多模态预训练模型 i-Code。在 5 项多模态视频理解任务以及 GLUE NLP 任务上树立了业界新标杆! 编译丨OGAI 编辑丨陈彩娴 人类的智能涉及多个模态:我们整合视觉、语言和声音信号,从而形成对世界全面的认识。然而,目前大多数的预训练方法仅针对一到两种模态设计。 在本文中,我们提出了一种多模态自监督预训练框架「i-Code」,用户可以灵活地将视觉、语音和语言的形式组合成统一的通用的向量表征。在该框架下,我们首先将各个模态的
AI科技评论
2022/05/12
8390
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
多任务学习新篇章 | EMA-Net利用Cross-Task Affinity实现参数高效的高性能预测
现代AI研究正在迅速融入作者的日常生活。然而,大多数最先进模型庞大且依赖远程访问,因为它们无法轻松部署在边缘设备如移动电话、智能配件或可穿戴医疗设备上。对于许多应用,模型在本地运行且无需依赖网络的需求突显了在模型设计中平衡性能与参数效率的重要性。
集智书童公众号
2024/01/29
8070
多任务学习新篇章 | EMA-Net利用Cross-Task Affinity实现参数高效的高性能预测
CVPR 2022 | CrossPoint:3D点云理解的自监督跨模态对比学习
CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding
3D视觉工坊
2022/04/13
3.3K0
CVPR 2022 | CrossPoint:3D点云理解的自监督跨模态对比学习
KDD'24 | MMBee:多模态融合和行为兴趣扩展在快手直播礼物推荐中的应用
本文主要针对直播中的用户行为(评论,礼物等)建模中的问题提出解决方案,以往关于直播礼物预测的研究将这项任务视为一个传统的推荐问题,并使用分类数据和观察到的历史行为对用户的偏好进行建模。但是,由于用户行为很稀疏,尤其是送礼物这类付费行为,想要捕捉用户的偏好和意图相当困难。本文提出了基于实时多模态融合和行为扩展的MMBee方法。
秋枫学习笔记
2024/07/12
4960
KDD'24 | MMBee:多模态融合和行为兴趣扩展在快手直播礼物推荐中的应用
推荐阅读
Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法
6260
ICCV2023 室内场景自监督单目深度估计
9860
联合模态融合+图对比学习
1310
多才多艺模型出现 | 捕捉每一个细节,多任务 + 多模态 + 自监督等Trick都不在话下!
5250
开源 ∼600× fewer GPU days:在单个 GPU 上实现数据高效的多模态融合
2660
【论文复现】MSA+抑郁症模型总结(三)
3000
对比学习(Contrastive Learning)在CV与NLP领域中的研究进展
8890
蚂蚁:多模态方向的技术探索
3710
CENet及多模态情感计算实战
3960
多模态情感分析与抑郁症检测:MMIM 模型的创新与应用全景
5690
最新综述 | SSL4Rec: 全面探索自监督学习时代的推荐算法 (含开源代码和资料)
4650
深度学习时代下的RGB-D显著性目标检测研究进展
2.2K0
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
3770
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
6790
ICCV2023 SOTA 长短距离循环更新网络--LRRU介绍
7550
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
4590
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
8390
多任务学习新篇章 | EMA-Net利用Cross-Task Affinity实现参数高效的高性能预测
8070
CVPR 2022 | CrossPoint:3D点云理解的自监督跨模态对比学习
3.3K0
KDD'24 | MMBee:多模态融合和行为兴趣扩展在快手直播礼物推荐中的应用
4960
相关推荐
Pri3D:一种利用RGB-D数据固有属性完成3D场景感知的表示学习方法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档