首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >辅助任务改进社交帖子多模态分类

辅助任务改进社交帖子多模态分类

作者头像
Srlua
发布于 2024-12-18 08:46:10
发布于 2024-12-18 08:46:10
18000
代码可运行
举报
文章被收录于专栏:CSDN社区搬运CSDN社区搬运
运行总次数:0
代码可运行

论文地址

https://arxiv.org/pdf/2309.07794

主要内容

  1. 这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。
  2. 研究者们结合了五种多模态模型,并在五个不同的社交媒体数据集上进行了实验,展示了使用这两种辅助任务可以一致性地提高模型性能,最高可提升 2.6 的 F1 分数。文章还提供了详尽的分析,展示了在特定场景下每种辅助任务最有效。
  3. 此外,文章还介绍了实验设置、使用的数据集、单模态方法、多模态模型、评估方法和结果。研究者们使用了不同的预训练模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒体任务上进行了实验,如文本-图像关系分类、情感分析、仇恨言论分类、讽刺检测和商业影响力内容检测等。
  4. 最后,文章讨论了研究的局限性,包括目前实验仅使用英文数据集,以及辅助任务的加入可能会增加训练时间。尽管如此,作者认为这些额外的时间与大型语言模型的预训练时间相比是相对较小的

主要贡献

文章的主要贡献可以总结为以下几点:

  1. 多模态模型微调的辅助任务研究:文章提出了一个广泛的研究,比较了在微调过程中联合使用图像-文本对比(ITC)和图像-文本匹配(ITM)两种辅助损失的多模态模型。
  2. 性能提升:展示了在五个不同的多模态社交媒体数据集上,使用ITC和ITM作为辅助损失的模型一致性地提高了性能,最高可提升2.6 F1分数。
  3. 具体场景分析:提供了详尽的分析,揭示了在不同类型的图像-文本关系中,个别辅助任务及其组合的有效性。
  4. 模型和数据集的多样性:研究涵盖了五种不同的多模态模型,并在五个不同的社交媒体数据集上进行了实验,这表明了方法的通用性和适应性。
  5. 对低资源场景的探讨:文章还探讨了在不同数量的训练样本下模型的泛化能力和数据效率,这对于资源受限的情况特别重要。
  6. 对模型有效性的深入理解:通过分析Ber-ViT-Att模型在TIR数据集上的预测,文章帮助理解在不同图像-文本关系类型下,辅助任务如何受益。

这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。

技术细节

Image-Text Contrastive (ITC)

ITC就是使用对比学习的方法让图像和文本的特征对齐。

因为多模态数据集一个文本对应一个图片,那么通过对比学习的方式,让对应的这组文本和图像的相似度更大,也就是特征更加相似,从而完成特征的对齐。

因此损失函数由两部分构成: 一个是为了让配对的文本-图像距离尽可能近而离另外的文本尽可能远。 一个是为了让配对的文本-图像距离尽可能近而离另外的图像尽可能远。

Image-Text Matching (ITM)

在社交媒体帖子中,不相关或弱相关的文本-图像对很常见,仅仅用ITC,可能图像和文本表面上看上去确实没有关联,但是可能有着深层次的关联,使用这个任务可以帮助模型挖掘这深层次的关系。

这个辅助任务也很简单,就是50%的概率随机替换文本-图像对中的图像数据,如果被替换了,那么文本和图像就是不匹配的,如果没有替换,文本和图像就是匹配的,这时可以让模型去预测,文本和图像当前到底匹不匹配,从而转化成一个二分类问题。

其损失函数如下:

联合微调目标

分类任务+辅助训练任务,一起进行训练,损失函数如下:

其中CE就是cross-entropy classification loss,也就是模型最终分类预测结果的损失函数。

实验结果

其中 +C就是加了ITC辅助任务 +M就是加了ITM辅助任务 可以看到,辅助任务确实可以优化模型的表现。

代码运行

  1. 创建一个名为timrel的conda环境,并安装所需的依赖项。 conda env create -f timrel-env.yml
  2. 下载图像数据集,可在文件夹中查看对应网盘下载(当前只提供了MMSD图像数据集) 各个数据集下载方式可参考: DATASETS:
  3. 将文本数据处理成如data_key_msd.csv一样的格式,并放置在data文件夹下(MSD文本已经处理好了)
  4. 运行示例(–testing表示测试运行,只有少量数据,去除可跑完整数据)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
source activate timrel-env
python run_mm_late.py --txt_model_name bernice --img_model_name vit --fusion_name attention --tas
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​浅析多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的一些工作和个人的理解。
腾讯技术工程官方号
2023/11/01
4.4K0
​浅析多模态大模型的前世今生
腾讯发表多模态综述,什么是多模态大模型
多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。在本文中,追踪多模态大模型最新热点,讨论多模态关键技术以及现有在情绪识别上的应用。
存内计算开发者
2024/05/14
4.4K0
腾讯发表多模态综述,什么是多模态大模型
BLIP:用更干净更多样的数据进行多模态预训练,性能超越CLIP!代码已开源!
视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,通过使用从web收集的嘈杂的图像-文本对来扩展数据集,在很大程度上实现了性能改进,但这是监督的次优来源。
CV君
2022/03/30
5.9K0
BLIP:用更干净更多样的数据进行多模态预训练,性能超越CLIP!代码已开源!
「理解和生成」的大一统!华人一作提出BLIP模型,「视觉+语言」任务多项SOTA
视觉语言预训练(Vision-language pre-training)的相关研究在各种多模态的下游任务中已经证明了其强大的实力。
新智元
2022/02/24
1.9K0
「理解和生成」的大一统!华人一作提出BLIP模型,「视觉+语言」任务多项SOTA
ChatGPT多模态命名实体识别
多模态命名实体识别(MNER)最近引起了广泛关注。 用户在社交媒体上生成大量非结构化内容,主要由图像和文本组成。这些帖子具有与社交媒体相关的固有特征,包括简洁和非正式的写作风格。 这些独特的特征对传统的命名实体识别(NER)方法提出了挑战。
E绵绵
2024/11/09
3260
ChatGPT多模态命名实体识别
CVPR 2022:图像分类+图文匹配=统一多模态对比学习框架
目前CV领域中包括两种典型的训练模式,第一种是传统的图像分类训练,以离散的label为目标,人工标注、收集干净、大量的训练数据,训练图像识别模型。第二种方法是最近比较火的基于对比学习的图文匹配训练方法,利用图像和其对应的文本描述,采用对比学习的方法训练模型。这两种方法各有优劣,前者可以达到非常高的图像识别精度、比较强的迁移能力,但是依赖人工标注数据;后者可以利用海量噪声可能较大的图像文本对作为训练数据,在few-shot learning、zero-shot learning上取得很好的效果,但是判别能力相比用干净label训练的方法较弱。今天给大家介绍一篇CVPR 2022微软发表的工作,融合两种数据的一个大一统对比学习框架。
圆圆的算法笔记
2022/09/22
7.1K0
CVPR 2022:图像分类+图文匹配=统一多模态对比学习框架
【论文复现】BLIP:VLP任务的新框架
视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练任务只擅长基于理解的任务或者基于生成的任务。此外,同时使用Web收集的有噪声的图像-文本对来扩展数据集虽然在很大程度上提高了性能,但这是一个次优的监督来源。   BLIP是一个新的VLP框架,它可以灵活的转移到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用了有噪声的网络数据,其中字幕生成器生成合成字幕,滤波器去除有噪声的字幕
Eternity._
2024/12/13
4460
【论文复现】BLIP:VLP任务的新框架
【大模型学习 | BLIP原理】
Image-grounded text encoder: Transformer block中,在self-attention(SA)和Feed forward network(FFN)之间加入了Cross Attention(CA),融入图像特征信息,Encode为图文对的特征表示;
九年义务漏网鲨鱼
2025/06/30
7430
【大模型学习 | BLIP原理】
【大模型学习 | MINIGPT-4原理】
🟢 Q-Former包含了两个transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ;
九年义务漏网鲨鱼
2025/07/02
6090
【大模型学习 | MINIGPT-4原理】
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
随着人工智能的发展,文本与图像等多模态数据的统一建模成为研究热点。统一多模态 Transformer(Unified Multimodal Transformer, UMT)正逐步展现其强大的泛化能力,尤其在图文检索、图像生成、图文问答等任务中展现卓越性能。本文将从原理、架构、实现细节到实验效果,深入解析一个简化版的统一多模态 Transformer 模型的构建过程。
一键难忘
2025/07/22
3390
【大模型学习 | BLIP2原理】
🟢 Q-Former包含了两个transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ;
九年义务漏网鲨鱼
2025/07/01
7530
【大模型学习 | BLIP2原理】
【BLIP】VLP任务的新框架
  视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练任务只擅长基于理解的任务或者基于生成的任务。此外,同时使用Web收集的有噪声的图像-文本对来扩展数据集虽然在很大程度上提高了性能,但这是一个次优的监督来源。   BLIP是一个新的VLP框架,它可以灵活的转移到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用了有噪声的网络数据,其中字幕生成器生成合成字幕,滤波器去除有噪声的字幕。
Srlua
2024/12/10
2290
【BLIP】VLP任务的新框架
多模态算法综述
纵览:视频理解算法经过了手工特征-> CNN -> Two stream ->3D卷积 ->Transformer的一步步演进,不断使模型具有更强的表征能力
yuyang
2022/07/12
3K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.8K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
【论文复现】ChatGPT多模态命名实体识别
多模态命名实体识别(MNER)技术近期备受瞩目。随着社交媒体上涌现出海量由图像与文本交织而成的非结构化内容,这些帖子展现出了社交媒体特有的属性,诸如言简意赅及不拘一格的表达方式。这些独特之处,无疑给传统的命名实体识别(NER)手段带来了前所未有的挑战。
Eternity._
2025/05/22
2540
【论文复现】ChatGPT多模态命名实体识别
多模态统一框架BLIP系列工作,从BLIP到InstructBLIP
这篇文章整理了Salesforce Research在多模态领域提出的NLIP图文统一框架,利用图文数据训练能够解决各类图文任务的统一模型(图文匹配、看图说话等)。共包含3个工作:BLIP、BLIP-2、InstructBLIP。三者的核心点如下:
圆圆的算法笔记
2023/08/17
4K0
多模态统一框架BLIP系列工作,从BLIP到InstructBLIP
SimVLM:拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
随着视觉和文本表示联合建模的进展,视觉语言预训练(VLP)在许多多模态下游任务上取得了非常好的性能。然而,对包括图像描述和区域标签在内的标注信息,限制了这一方向的进一步方法。此外。随着引入多个数据集特定的目标,预训练过程也变得更加复杂。在这项工作中,作者放宽了这些约束,提出了一个极简的预训练框架,名为Simple Visual Language Model (SimVLM)。
CV君
2021/09/27
9660
SimVLM:拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
选自arXiv作者:Jiaxi Gu等 机器之心编译编辑:Juniper 华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」,并在此基础上对不同的多模态预训练模型进行基准测试,有助于中文的视觉语言预训练算法开发和发展。 在大数据上预训练大规模模型,对下游任务进行微调,已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN
机器之心
2022/03/04
1K0
如何使用多类型数据预训练多模态模型?
在训练过程中使用更多数据一直是深度学习提效的重要方法之一,在多模态场景也不例外。比如经典的CLIP模型,使用了大规模的网络图文匹配数据进行预训练,在图文匹配等任务上取得非常好的效果。
圆圆的算法笔记
2022/09/22
2.4K0
如何使用多类型数据预训练多模态模型?
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。即使 GPT4-Vision 也无法回答知识密集型问题(图一上),这成为了很多企业级落地应用的瓶颈。
机器之心
2024/03/26
1.6K0
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
推荐阅读
相关推荐
​浅析多模态大模型的前世今生
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验