首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MMSD2.0和多模态讽刺检测

MMSD2.0和多模态讽刺检测

作者头像
Srlua
发布于 2024-12-14 01:00:17
发布于 2024-12-14 01:00:17
23403
代码可运行
举报
文章被收录于专栏:CSDN社区搬运CSDN社区搬运
运行总次数:3
代码可运行

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验,作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准,并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括:

  1. 首次指出了当前多模态讽刺基准中的问题,激励研究人员重新思考多模态讽刺检测的进展;
  2. 引入了MMSD2.0,这是一个修正后的数据库,去除了误导性线索并修正了不合理的标注,为构建可靠的多模态讽刺系统迈出了有意义的一步;
  3. 提出了一个新颖的多视图CLIP框架,该框架捕获了不同视角的图像、文本和图像-文本交互的线索,并实现了最先进的性能。

模型图

MMSD2.0数据集的总体构建过程。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。

文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。换句话说,模型只需要学习虚假相关性(标签词字数)而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题,文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测,而不是依赖于标签字数作为依据。

同样,文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级,而不是真正捕捉多模式提示。为了解决这个问题,文章删除了文本中的所有表情符号单词,以迫使模型学习真正的多模态讽刺特征,而不是依赖于虚假的文本提示。

MMSD只是将没有“#讽刺”等特殊标签的样本视为负样本(即,不是讽刺)。文章认为这个过程是不合理的,因为没有#讽刺标签的样本也可以表达讽刺意图。因此,我们选择MMSD数据集中的所有负样本(超过50%)作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理(删除标签词、表情符号词、重新对阴性样本进行标注)就是得到了MMSD2.0,对比结果如下:

多视图CLIP框架

首先定义输入数据:

(x, y)表示一对文本-图像

文本视图

文本经过CLIP的text encoder进行编码,n表示一句话的词数量。

使用tCLS作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

图像也是同理,使用CLIP的image encoder(这里应该是ViT)对图像信息进行编码。

然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图

对CILP的文本编码信息、图像编码信息进行拼接。

然后使用注意力机制进行特征交互融合,其中Q、K、V都是F经过线性变换的结果。

交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合,得到f

然后对f进行分类预测

那么最终的预测分布结果如下:

其中yo 可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。

损失函数就是上面三种视图的预测分布都进行损失计算。

实验结果

消融实验:

代码运行

安装包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda create -n env_name python=3.7.4   
source activate env_name     
pip install -r requirements.txt

运行

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python main.py --model MV_CLIP --text_name text_json_final --weight_decay 0.05 --train_batch_size 32 --dev_batch_size 32 --learning_rate 5e-4 --clip_learning_rate 1e-6 --num_train_epochs 10 --layers 3 --max_grad_norm 5 --dropout_rate 0.1 --optimizer_name adam --text_size 512 --image_size 768 --warmup_proportion 0.2 --device 0

python main.py --model MV_CLIP --text_name text_json_clean --weight_decay 0.05 --train_batch_size 32 --dev_batch_size 32 --learning_rate 5e-4 --clip_learning_rate 1e-6 --num_train_epochs 10 --layers 3 --max_grad_norm 5 --dropout_rate 0.1 --optimizer_name adam --text_size 512 --image_size 768 --warmup_proportion 0.2 --device 0

运行结果

这是MMSD2.0的运行结果,可以看到和文章的结果差不多。

​​

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
EMNLP2022 | 多模态“讽刺语言”检测框架(南洋理工 & 含源码)
 讽刺是一种语言表达方式,即其字面意义和隐含意图之间存在差异。由于其复杂的性质,通常很难从文本本身进行检测。因此,「多模态讽刺检测在学术界和业界都受到了越来越多的关注」。今天给大家分享的这篇文章,从多模态角度出发,通过对基于多头交叉注意机制的原子级一致性和基于图神经网络的成分级一致性进行研究,「提出了一种新的基于层次结构的讽刺语言检测框架」。
ShuYini
2022/12/05
1.1K2
EMNLP2022 | 多模态“讽刺语言”检测框架(南洋理工 & 含源码)
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
社交媒体上的假新闻蔓延使得假新闻检测成为保持信息完整性的关键任务,保护公共言论,并防止信任侵蚀[1]。生成假新闻的越来越受欢迎的方法是将真实图像与误导/不正确的标题配对,因为这样需要最小的努力和技术专业知识。图1展示了来自基准新闻CLIPings数据集[4]的真实和假图像-文本配对的一些例子。假新闻通常在视觉内容和伴随文本之间存在差异,而真实新闻则往往在图像和文本之间具有连贯的关系。
未来先知
2024/11/06
3300
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
腾讯发表多模态综述,什么是多模态大模型
多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。在本文中,追踪多模态大模型最新热点,讨论多模态关键技术以及现有在情绪识别上的应用。
存内计算开发者
2024/05/14
4K0
腾讯发表多模态综述,什么是多模态大模型
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
眼科疾病如青光眼、黄斑变性、糖尿病视网膜病变等对全球视力健康构成了重大威胁,常常导致视力减弱甚至失明。[1]然而,由于医疗资源短缺,特别是服务不足的地区和发展中国家,及时的诊断和治疗仍然是一个关键的挑战。[2; 3]这种资源配置的不公平性使得眼科疾病的早期检测和干预尤其困难,从而进一步加重了这些疾病的负担。
AIGC 先锋科技
2024/11/01
8340
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
机器之心专栏 QQ 浏览器搜索技术中心、腾讯 PCG ARC Lab 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。此外,QQ 浏览器还能根据用户正在观看的视频内容,推荐用户可能感兴趣的搜索词,推词的挖掘、排序同样需要模型
机器之心
2023/03/29
1.2K0
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767
AIWalker
2023/11/07
9520
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
百万量级的多模态对话数据集来了,153万张图片4000多主题,已对学术圈开源|北大&微软新研究
MMDialog,这个由北大&微软最新发布的英文数据集,包含了108万个来源于真实世界的高质量对话。
量子位
2022/12/09
6930
百万量级的多模态对话数据集来了,153万张图片4000多主题,已对学术圈开源|北大&微软新研究
多模态AI系统:结合视觉、语言和声音的智能
随着人工智能技术的飞速发展,单一模态的人工智能应用已经逐渐无法满足日益复杂的需求。多模态AI系统,结合了视觉、语言和声音等多个感知模态,成为了研究的热点。通过整合这些不同的信息源,能够使AI系统更好地理解和生成与人类交流的内容。这种系统在自动驾驶、智能客服、医学影像分析等领域具有广泛的应用前景。
一键难忘
2025/03/22
3030
辅助任务改进社交帖子多模态分类
这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。
Srlua
2024/12/18
1390
辅助任务改进社交帖子多模态分类
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
【综述专栏】大型语言模型遇上文本中心的多模态情感分析
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2024/06/18
1.3K0
【综述专栏】大型语言模型遇上文本中心的多模态情感分析
如何使用多类型数据预训练多模态模型?
在训练过程中使用更多数据一直是深度学习提效的重要方法之一,在多模态场景也不例外。比如经典的CLIP模型,使用了大规模的网络图文匹配数据进行预训练,在图文匹配等任务上取得非常好的效果。
圆圆的算法笔记
2022/09/22
2.3K0
如何使用多类型数据预训练多模态模型?
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
6640
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
万字综述!从21篇最新论文看多模态预训练模型研究进展
在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。
NewBeeNLP
2021/11/19
4.9K0
万字综述!从21篇最新论文看多模态预训练模型研究进展
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
目标检测是计算机视觉中一个非常重要的基础任务,与常见的的图像分类 / 识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在 CV 三大任务(识别、检测、分割)中处于承上启下的关键地位。
机器之心
2023/08/04
1.4K0
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%
最近谷歌提出了最新多模态预训练方法CoCa,在图像分类、图文检索、看图说话、VQA等多个任务都取得了SOTA效果。CoCa可以说融合了历史图像模型、多模态模型训练范式为一体,融合了多种训练范式的优点,具有非常广泛的适用场景。同时,模型的核心结构和设计思路也比较优雅简洁。下面带大家了解一下这篇谷歌最新多模态工作。
圆圆的算法笔记
2022/09/22
1.6K0
谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。
小腾资讯君
2024/03/12
4.1K0
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
3D传感器(如LiDAR和RGB-D相机传感器)的广泛应用导致3D多目标跟踪(MOT)在多个领域得到广泛应用,包括自动驾驶、室内机器人、和无人驾驶飞机等。与2D MOT相比,3D MOT 利用3D空间信息来增强对物理环境的3D理解。
未来先知
2024/09/20
2870
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025/03/03
1810
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
告别单一视角:DA4LG在多视图设置下的惊艳表现 !
视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如,代理可以根据来自大型语言模型的计划器提供的一系列原始指令,包括对目标目标的详细描述,来制作一杯咖啡。在这一过程中,视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此,与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展,尤其是3D视觉语言定位。为了解决这个问题,现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验,这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中,作者从领域适应的角度对语言定位任务进行了探索,受到了大型语言模型参数高效调整的领域适应的启发。
AIGC 先锋科技
2024/07/10
1760
告别单一视角:DA4LG在多视图设置下的惊艳表现 !
推荐阅读
EMNLP2022 | 多模态“讽刺语言”检测框架(南洋理工 & 含源码)
1.1K2
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
3300
腾讯发表多模态综述,什么是多模态大模型
4K0
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
8340
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
1.2K0
超越imagebind, 北大&腾讯 提出LanguageBind, 打造多模态15边型战士!
9520
百万量级的多模态对话数据集来了,153万张图片4000多主题,已对学术圈开源|北大&微软新研究
6930
多模态AI系统:结合视觉、语言和声音的智能
3030
辅助任务改进社交帖子多模态分类
1390
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
【综述专栏】大型语言模型遇上文本中心的多模态情感分析
1.3K0
如何使用多类型数据预训练多模态模型?
2.3K0
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
6640
万字综述!从21篇最新论文看多模态预训练模型研究进展
4.9K0
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
1.4K0
谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%
1.6K0
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
4.1K0
YOLO0 你只向别人学习一次,新的多模态3D MOT方法 !
2870
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
1810
告别单一视角:DA4LG在多视图设置下的惊艳表现 !
1760
相关推荐
EMNLP2022 | 多模态“讽刺语言”检测框架(南洋理工 & 含源码)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验