前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MultiBench多模态表征学习的多尺度基准

MultiBench多模态表征学习的多尺度基准

作者头像
何武凡
发布2023-03-09 17:28:38
5550
发布2023-03-09 17:28:38
举报

MULTIBENCH,一个系统而统一的大规模多模态学习基准,涵盖15个数据集、10种模式、20个预测任务和6个研究领域。

引言

背景:

  • 语言和视觉领域发展不错,但是其他领域欠缺
  • 现在的基准评价关注性能,没有量化缺点包括时间空间复杂度,由于不完美模态导致的鲁棒性降低,需要在性能、鲁棒性、复杂度取得平衡

提出multibench就是解决以上问题:

  • 扩充收集各领域数据集、数据模态
  • 量化复杂度
  • 提出标准流程评价对噪声和缺失模态情况下的鲁棒性

MultiBench是一个端到端的过程,包括数据预处理、数据集拆分、多模态算法、评估指标和交叉验证。

  • 开发工具包MultiZoo
  • 可以用于workshop、教学等

多尺度多模态基准

第一版集中在多模态融合,对于多模态翻译等问题未来版本可能涉及

数据集

介绍了6大领域15个数据集,表1

  • 情感计算(affective computing)
  • 医疗:时变和静态变量的整合使用
  • 机器人
  • 金融
  • 人机交互
  • 多媒体

评价标准

性能:

  • regression: MSE, MAE,
  • classification: F1-score, AUPRC

复杂度:

  • data size in bits
  • number of model parameters
  • time and memory resources on CPU and GPU

鲁棒性:

  • 单模态独有噪音:对图像、音频等单独处理
  • 考虑多模态整体的不完善:比如缺失模态等

MultiZoo:多模态算法集合

涵盖实现multibench整个过程中的算法

数据预处理

  • WordAlign算法
    • 将各模态信息调整到统一粒度

融合范式

  • 早期和晚期融合
    • EF,LF
  • 多模态张量: 多模态互补
    • Tensor Fusion
    • Low-rank Tensor Fusion
  • 多模态乘法交互: 多模态交互
    • MI-MATRIX
    • MI-VECTOR
    • MI-SCALAR
  • 多模态门控
    • NL GATE: 自注意力机制
  • 时序注意力模型
    • MULT: 多模态Transformer
  • 网络架构搜索
    • MFAS

优化目标

除了标准的监督损失函数,纳入一些新提出的目标函数

  • CCA
  • REFNET
  • MFM
  • MCTN

训练过程

  • Gradient Blending来计算融合的权重
  • Regularization by Maximizing Functional Entropies

实验

  • 泛化性能
    • 目前的方法表现出高方差,没有放之四海而皆准的模型,特别是对于未被研究的模式和任务。
    • 后期融合表现比较均衡
    • 有些融合方法是专门为2模态设计,有些在2/3模态表现不好
  • 单模态与多模态的权衡
  • 性能与复杂度的权衡
  • 性能与鲁棒性的权衡

结论

一个大规模的基准,统一了以前在多模态研究中互不相干的工作,重点是易用性、可及性和可重复性。

未来拓展

  • 其他的多模态问题
  • 新的评价指标
  • 多模态迁移学习或者协同学习
  • 多模态多任务学习

思考

MultiBench把以前多模态研究中使用的公开数据集,算法,评价指标等都统一在了一个框架下,期望标准化多模态学习过程,并且能将不同的算法模型在其他模态、任务中进行比较。大而全的框架确实能为各类多模态任务提供一个baseline,但是各专业领域内的多模态模型应该是存在一些差异的,就像我们很难期待一个医生能掌握律师干的事情,然而,人工智能的发展确实很快,比人还强大的通用人工智能应该也会实现。


  1. Liang, P. P. et al. MultiBench: Multiscale Benchmarks for Multimodal Representation Learning. (2021) doi:10.48550/arXiv.2107.07502. ↩︎
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 多尺度多模态基准
    • 数据集
      • 评价标准
      • MultiZoo:多模态算法集合
        • 数据预处理
          • 融合范式
            • 优化目标
              • 训练过程
              • 实验
              • 结论
                • 未来拓展
                • 思考
                相关产品与服务
                腾讯云小微
                腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档