首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >对比学习新方法提升数据表示效果

对比学习新方法提升数据表示效果

原创
作者头像
用户11764306
发布2025-09-25 17:38:48
发布2025-09-25 17:38:48
90
举报

提升数据表示的对比学习新方法

新的损失函数能够更好地逼近最优损失,并为多模态数据生成更有用的表示。

近年来人工智能的许多进步都源于表示学习:机器学习模型学习将数据项表示为多维空间中的向量,其中向量之间的几何关系对应数据项之间的语义关系。某中心的M5团队致力于构建与某中心商店相关数据的通用语义表示(产品描述、查询、评论等),这些表示可被整个某中心的机器学习系统使用。我们的方法涉及利用每个实体所有可访问的数据,通常跨越多种模态。

生成通用表示最成功的方法之一是对比学习,其中模型在输入对上训练,这些输入对要么是正例(相似输入/产品),要么是负例(不相似输入/产品)。模型学习将正例拉近,将负例推远。

在最近的两篇论文中,M5研究人员对对比学习的理论和实践做出了重要贡献。在2022年神经信息处理系统大会(NeurIPS)上发表的《为什么对比学习需要大批量?梯度偏差视角》中,我们提出了一种新的对比学习损失函数,使模型能够以更低内存成本和更少训练数据收敛到有用表示。而在今年计算机视觉与模式识别大会(CVPR)上发表的《多模态表示学习中的潜在模态结构理解与构建》中,我们提出了对同一数据项不同模态表示(如图像和文本)的几何约束,这些约束比简单尝试将两种表示解析到表示空间中的同一点对下游任务更有用。

对比学习是否需要大批量?

与标准机器学习方法相比,对比学习通常需要非常大的批量才能获得良好性能:例如,一些流行模型需要数万个训练样本,显著增加了内存开销;减少批量大小可能会损害性能。在我们的NeurIPS论文中,我们试图理解这一现象并提出缓解技术。

对比学习的部分吸引力在于它是无监督的,意味着不需要数据标注。正例对可以通过数学变换"锚样本"并将变换版本与原始版本配对生成;负例对可以通过将锚样本与其他锚样本的变换版本配对生成。对于图像数据,变换可能涉及重新裁剪、翻转或扭曲锚样本的颜色;对于文本数据,变换可能涉及用同义词替换句子中的单词。

给定表示空间中向量相似性的度量,对比学习的标准损失函数涉及一个比率,其分子包含锚样本与其一个变换之间的相似性;分母包含锚样本与所有可能负样本相似性的总和。训练的目标是最大化该比率。

原则上,考虑到对负样本应用变换的可能性,"所有可能负样本"可以描述一个无限集。实际上,对比学习通常仅依赖训练批次中可用的负例。因此需要大批量大小——来逼近无限和。

如果小批量样本的分布与可能负例的分布不同,这种逼近可能会使模型产生偏差。纠正偏差的一个困难是,由于损失函数在一个比率中同时对比每个正例对与所有可能负例,它不能被分解为子损失之和。

我们使用贝叶斯增强解决可分解性问题。一般方法是,对于每个锚样本,我们创建一个随机辅助变量,可以视为应用于锚样本相似性得分的权重。利用伽马函数下的恒等式,我们可以证明辅助变量遵循伽马分布,易于采样。因此,我们可以将损失重写为指数形式而非分数形式,使其可分解。

在训练期间,我们首先从伽马分布中采样当前数据批次的辅助变量,给出所有锚样本相似性得分的权重。在以采样值为条件的情况下,我们然后应用最大似然估计优化模型参数,这将考虑第一步中相似性得分的采样权重。我们对整个数据集重复此过程,对一系列(加权)子损失求和产生累积损失。我们在论文中证明,该过程将收敛于原始对比损失函数的期望损失,其分母中包含无限和。

我们通过大量实验评估我们的方法。在一个实验中,我们使用模拟数据,注入噪声模拟偏差。然后我们使用我们的损失和传统损失函数训练模型10次,使用不同的初始值。在高噪声水平下,使用传统损失训练的模型未能收敛,而我们的模型始终收敛到最优值。

我们还在各种下游任务上评估模型,包括零样本/少样本图像分类和图像/文本检索。我们的方法相比最先进的基线方法显示出显著性能提升。

多模态表示匹配的最佳几何结构是什么?

在M5,我们正在构建可处理多模态数据的可扩展模型——例如,在不同语言产品描述之间翻译的多语言模型,或联合建模同一产品不同图像的多实体模型。对比学习是构建此类模型的有前途方法:与同一产品相关的不同模态数据可被视为正例对,对比学习将它们拉近在表示空间中。

我们从理论上研究了标准对比学习框架在下游任务预测错误率方面是否最优,令人惊讶的答案是否定的。在我们的CVPR论文中,我们证明如果两种模态之间的信息差距很大——即如果无法从一种模态推断出另一种模态的太多信息——那么使用标准对比学习表示所能达到的最佳预测错误率大于直接在单模态数据上训练机器学习模型所能达到的错误率。

这有一定直观意义。理想情况下,对比学习会将不同模态拉得如此紧密,以至于它们基本上解析为表示空间中的单个点。但当然,对下游任务使用多模态表示的原因是每种模态可能捕获其他模态没有的有用信息。将不同模态的表示折叠在一起会抵消这一优势。

因此,在我们的CVPR论文中,我们探索了表示空间中不同的几何关系,这些关系可以在不牺牲每种模态特定信息的情况下建立多模态数据之间的相关性。我们提出了三种在表示空间中构建模态结构的通用方法,适用于模态内表示、模态间表示以及两者组合:

  • 用于模态内正则化的深度特征分离损失,使用两种类型的神经网络组件分离不同模态信息:一个组件捕获模态间共享信息(根据标准对比学习损失调整),另一个与第一个正交的组件捕获模态特定信息;
  • 用于模态间正则化的"布朗桥"损失,使用布朗运动绘制从一种模态(如文本)到另一种模态(如图像)表示的若干轨迹/过渡,并约束增强数据的表示沿这些路径之一分布;
  • 用于模态内和模态间正则化的几何一致性损失,在一种模态表示与另一种模态相应表示之间的几何关系中强制对称性,同时强制跨模态几何关系中的对称性。

我们在两种流行的多模态表示学习框架(基于CLIP的双塔模型和基于ALBEF的融合模型)上进行了广泛实验。我们在各种任务上测试模型,包括零样本/少样本图像分类、图像-文本检索、视觉问答、视觉推理和视觉蕴含。我们的方法相比现有方法实现了一致改进,证明了我们提出的多模态表示学习方法的有效性和泛化能力。

未来展望

我们的NeurIPS和CVPR论文仅代表M5团队的两个有趣项目。M5还有更多关于多模态学习的研究正在进行。这包括用于图像、视频和文本的生成模型(如Stable Diffusion、DreamBooth)以实现数据合成和表示学习,以及训练和应用大型语言模型以增强客户购物体验。我们期望在不久的将来报告更多研究亮点。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 提升数据表示的对比学习新方法
  • 对比学习是否需要大批量?
  • 多模态表示匹配的最佳几何结构是什么?
  • 未来展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档