首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MMSD2.0和多模态讽刺检测

MMSD2.0和多模态讽刺检测

作者头像
Srlua
发布于 2024-12-14 01:00:17
发布于 2024-12-14 01:00:17
23400
代码可运行
举报
文章被收录于专栏:CSDN社区搬运CSDN社区搬运
运行总次数:0
代码可运行

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验,作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准,并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括:

  1. 首次指出了当前多模态讽刺基准中的问题,激励研究人员重新思考多模态讽刺检测的进展;
  2. 引入了MMSD2.0,这是一个修正后的数据库,去除了误导性线索并修正了不合理的标注,为构建可靠的多模态讽刺系统迈出了有意义的一步;
  3. 提出了一个新颖的多视图CLIP框架,该框架捕获了不同视角的图像、文本和图像-文本交互的线索,并实现了最先进的性能。

模型图

MMSD2.0数据集的总体构建过程。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。

文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。换句话说,模型只需要学习虚假相关性(标签词字数)而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题,文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测,而不是依赖于标签字数作为依据。

同样,文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级,而不是真正捕捉多模式提示。为了解决这个问题,文章删除了文本中的所有表情符号单词,以迫使模型学习真正的多模态讽刺特征,而不是依赖于虚假的文本提示。

MMSD只是将没有“#讽刺”等特殊标签的样本视为负样本(即,不是讽刺)。文章认为这个过程是不合理的,因为没有#讽刺标签的样本也可以表达讽刺意图。因此,我们选择MMSD数据集中的所有负样本(超过50%)作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理(删除标签词、表情符号词、重新对阴性样本进行标注)就是得到了MMSD2.0,对比结果如下:

多视图CLIP框架

首先定义输入数据:

(x, y)表示一对文本-图像

文本视图

文本经过CLIP的text encoder进行编码,n表示一句话的词数量。

使用tCLS作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

图像也是同理,使用CLIP的image encoder(这里应该是ViT)对图像信息进行编码。

然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图

对CILP的文本编码信息、图像编码信息进行拼接。

然后使用注意力机制进行特征交互融合,其中Q、K、V都是F经过线性变换的结果。

交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合,得到f

然后对f进行分类预测

那么最终的预测分布结果如下:

其中yo 可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。

损失函数就是上面三种视图的预测分布都进行损失计算。

实验结果

消融实验:

代码运行

安装包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda create -n env_name python=3.7.4   
source activate env_name     
pip install -r requirements.txt

运行

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python main.py --model MV_CLIP --text_name text_json_final --weight_decay 0.05 --train_batch_size 32 --dev_batch_size 32 --learning_rate 5e-4 --clip_learning_rate 1e-6 --num_train_epochs 10 --layers 3 --max_grad_norm 5 --dropout_rate 0.1 --optimizer_name adam --text_size 512 --image_size 768 --warmup_proportion 0.2 --device 0

python main.py --model MV_CLIP --text_name text_json_clean --weight_decay 0.05 --train_batch_size 32 --dev_batch_size 32 --learning_rate 5e-4 --clip_learning_rate 1e-6 --num_train_epochs 10 --layers 3 --max_grad_norm 5 --dropout_rate 0.1 --optimizer_name adam --text_size 512 --image_size 768 --warmup_proportion 0.2 --device 0

运行结果

这是MMSD2.0的运行结果,可以看到和文章的结果差不多。

​​

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
分析2025年智能眼镜最新技术与动态
🔥 热点观察:2025年被业界誉为"智能眼镜爆发元年",在CES 2025上,AI眼镜密集亮相成为重头戏,"百镜大战"悄然上演。从Meta Ray-Ban的市场突破到小米、苹果的重磅入局,智能眼镜正从科幻走向现实,成为下一代计算平台的有力竞争者。
蓝葛亮
2025/07/11
1260
分析2025年智能眼镜最新技术与动态
2025年智能眼镜最新技术与动态分析
2025年被业内普遍认为是AI眼镜的爆发元年,这个判断并非空穴来风。Meta Ray-Ban智能眼镜自2023年9月发布以来,已售出超过200万副,证明了市场对于这类产品的强烈需求。
蓝葛亮
2025/07/07
1580
2025年智能眼镜最新技术与动态分析
详解工业AR眼镜关键技术之光学篇
AR眼镜的光学技术是决定其显示效果、佩戴体验和场景适应性的核心,直接影响虚拟信息与真实环境的融合质量。这里我们从光学所需要的微显示、光波导等技术,进行详解。
阿法龙XR云平台
2025/07/10
1230
详解工业AR眼镜关键技术之光学篇
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
视点 发自 凹非寺 量子位 | 公众号 QbitAI 元宇宙产业的发展,正在将各种前沿领域技术汇集到一起,构建出下一代互联网的新形态。 正如互联网的准入级终端是PC,移动互联网的准入级终端是手机,那么下一代互联网,准入级终端或许就将是VR和AR设备。 VR终端或将承载深度元宇宙的交互,而AR终端的普及或将让元宇宙技术走向千家万户。 AR设备,尽管外形看来极度接近于普通眼镜,但其核心的光学显示部分,也就是光学模组,让它成为最有希望叩开元宇宙大门的“低门槛”终端。 围绕AR产业趋势、元宇宙等热点话题,灵犀微光C
量子位
2022/06/27
4760
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
1.10 VR扫描:AR眼镜方案商Lumus推超轻薄AR显示屏;Jaunt VR推全新XR平台
Valve发布临时测试软件,可为VR控制器添加按钮映射 今日,Valve发布了一个名为“OpenVR-InputEmulator”的临时测试软件。通过该软件,SteamVR用户可以在任何PC VR控
VRPinea
2018/05/17
8660
AR眼镜何时能跳脱出概念产品,走进现实?
(VRPinea 3月16日讯)3月3日,OPPO的第三代AR眼镜OPPO Air Glass正式开售,价格为4999元人民币。当然也不仅仅只有OPPO一家执着于开发面向C端的AR眼镜,AR光波导制造商灵犀微光在去年就已发布轻薄型AR眼镜参考机型阿拉丁Zero。上周,灵犀微光又宣布获得亿元级B轮融资,新资金的注入是在为其走向消费端市场铺路。
VRPinea
2022/04/14
3870
AR眼镜何时能跳脱出概念产品,走进现实?
2022,中国AR眼镜产业「迎春」:千帆竞技,百舸争流
进入2022,在“元宇宙”概念的猛烈加持下,AR眼镜不仅在商用场景得到重视,在消费级市场也迎来了广泛关注。
镁客网
2023/01/04
4850
2022,中国AR眼镜产业「迎春」:千帆竞技,百舸争流
Magic Leap One终推出|经历多番前期炒作,这样的结果你满意吗?
美国东部时间2018年8月8日8时8分(即北京时间昨晚8时8分),Magic Leap One正式发布了。其售价为2295美元,目前仅在美国的六个城市发货(芝加哥、纽约、旧金山、迈阿密、洛杉矶和西雅图)。
VRPinea
2018/08/21
4720
Magic Leap One终推出|经历多番前期炒作,这样的结果你满意吗?
了解一下微纳光学在AR眼镜中的应用
光波导是一种光学技术,在光通信、激光领域应用较多。简单的来说就是光在特定设计的材料器件结构中实现光的定向传播,应用的是全反射原理,中心用折射率大的材料,四周用折射率小的材料,就可以束缚光在介质中传播。
用户2760455
2022/06/08
1.1K0
了解一下微纳光学在AR眼镜中的应用
想要体验《失控玩家》里Guy的视角,299美元还远远不够
毫不意外,免提打电话、听音乐功能一样都没落下。甚至由于产业内卷,拍照录视频也成为了智能眼镜出道的基本天赋。
量子位
2021/09/29
3140
AR光栅波导技术,科幻未来正在逼近
人类在AI和AR领域的技术探索,就像在丛林里前行,没有预知的方向,只有不停的尝试,才有可能趟出一条路来。
AiTechYun
2019/10/15
1.5K0
AR光栅波导技术,科幻未来正在逼近
翘首盼望“改变游戏规则”的产品?但AR眼镜的老问题苹果恐怕也难解决
按照苹果的设计风格和“追求完美、极简主义”的理念来看,大家对苹果AR眼镜的外形倒真的值得期待下。
VRPinea
2018/12/05
4850
9.10 VR扫描:传新iPhone或搭载新协同处理器;滴滴推AR步行导航
据外媒报道,WaveOptics已获1000万英镑融资。本轮融资旨在推动AR在主流市场的发展,目前并没有更多关于投资者的消息。截至目前,WaveOptics已获6000万美元融资。
VRPinea
2019/09/17
6370
9.10 VR扫描:传新iPhone或搭载新协同处理器;滴滴推AR步行导航
10.19VR行业大事件:AR眼镜智能终端Rokid Station发布;李未可发布AR眼镜Meta Lens
(VRPinea 10月19日讯)今日重点新闻:国内AR眼镜厂商Rokid发布了适用于之前发布的 AR眼镜Rokid Air的全新硬Rokid Station;杭州李未可科技发布其首款AR眼镜Meta Lens;VR恐怖游戏《驱魔人:军团VR》赶在万圣节前发布了更新。
VRPinea
2022/11/17
5930
10.19VR行业大事件:AR眼镜智能终端Rokid Station发布;李未可发布AR眼镜Meta Lens
9.15 VR扫描:HTC Vive Pro 2套装10月发售;苹果测试下一代MicroOLED显示屏
(VRPinea 9月15日讯)今日重点新闻:dToF传感器研发商灵明光子科技获数千万元人民币B1融资,本轮融资将用于继续研发dToF传感技术、扩大人才团队、以及拓展产品领域;HTC Vive Pro 2完整套件将于10月份开始发货,售价1399美元;小米公布智能眼镜概念机,采用单目方案、光机为0.13英寸MicroLED、亮度为200万尼特。
VRPinea
2021/10/08
3950
9.10 VR扫描:亮风台C+轮融资2.7亿人民币;Facebook智能眼镜发布
AR公司亮风台宣布,已完成C+轮2.7亿元人民币融资。本轮融资由CPE源峰领投,晶凯资本、源慧资本、大观资本、清控银杏等老股东跟投。
VRPinea
2021/09/14
6360
CES 2021丨因疫情转为线上举办,AR或成主流趋势?
(VRPinea1月15日讯)2021年拉斯维加斯消费电子展(CES)于当地时间1月11日开幕,受疫情影响,本次展会以线上形式举行。在本届CES 2021中,XR相关的内容也有很多,P君对大会内容进行了汇总之后,给大家带来了XR方面的相关资讯~
VRPinea
2021/01/29
4620
CES 2021丨因疫情转为线上举办,AR或成主流趋势?
CES2020最全报道|黑科技全面爆发,XR、手机、电视多领域新品全面报道
北京时间1月8日-11日,2020届国际消费类电子产品展览会(CES2020)正式在洛杉矶拉斯维加斯会展中心拉开帷幕。作为全球最大的消费电子展,本届展会展览了大量科技领域最新最有趣的“黑科技”新品,范围囊括了从人工智能到XR等诸多热门领域。作为XR领域专业的垂直媒体,VRPinea将为各位读者带来CES2020的最新报道。
VRPinea
2020/02/12
6090
CES2020最全报道|黑科技全面爆发,XR、手机、电视多领域新品全面报道
李未可的Meta Lens,让我看到了中国AR的未来
最近一段时间,从AR到VR,不少品牌都在发布自己的新产品,似乎约定好了要让2022成为中国的元宇宙元年。10月10日,杭州李未可科技有限公司官宣将在10月17日晚8:10举行李未可AR眼镜Meta Lens的新品发布会。
罗超频道
2022/12/14
2770
李未可的Meta Lens,让我看到了中国AR的未来
盘点|近期AR眼镜/头显最新动态合集!
近期,关注AR/VR圈的小伙伴们,应该有发现AR,尤其是AR硬件方面的消息特别多。就连“万年专利户”的苹果眼镜,其官方也对外表示,眼镜将于2021年底推出。并且还预计能在发售第一年内就卖出1000万台。不过,2021年还有些遥远,小伙伴们不如先随小编一起看下近3个月内,相关厂商在AR眼镜/头显落地方面的最新进展吧。
VRPinea
2018/07/26
5850
盘点|近期AR眼镜/头显最新动态合集!
推荐阅读
分析2025年智能眼镜最新技术与动态
1260
2025年智能眼镜最新技术与动态分析
1580
详解工业AR眼镜关键技术之光学篇
1230
灵犀微光CEO郑昱:阵列光波导,推动AR眼镜三年内走向消费级市场的显示技术|量子位·视点分享回顾
4760
1.10 VR扫描:AR眼镜方案商Lumus推超轻薄AR显示屏;Jaunt VR推全新XR平台
8660
AR眼镜何时能跳脱出概念产品,走进现实?
3870
2022,中国AR眼镜产业「迎春」:千帆竞技,百舸争流
4850
Magic Leap One终推出|经历多番前期炒作,这样的结果你满意吗?
4720
了解一下微纳光学在AR眼镜中的应用
1.1K0
想要体验《失控玩家》里Guy的视角,299美元还远远不够
3140
AR光栅波导技术,科幻未来正在逼近
1.5K0
翘首盼望“改变游戏规则”的产品?但AR眼镜的老问题苹果恐怕也难解决
4850
9.10 VR扫描:传新iPhone或搭载新协同处理器;滴滴推AR步行导航
6370
10.19VR行业大事件:AR眼镜智能终端Rokid Station发布;李未可发布AR眼镜Meta Lens
5930
9.15 VR扫描:HTC Vive Pro 2套装10月发售;苹果测试下一代MicroOLED显示屏
3950
9.10 VR扫描:亮风台C+轮融资2.7亿人民币;Facebook智能眼镜发布
6360
CES 2021丨因疫情转为线上举办,AR或成主流趋势?
4620
CES2020最全报道|黑科技全面爆发,XR、手机、电视多领域新品全面报道
6090
李未可的Meta Lens,让我看到了中国AR的未来
2770
盘点|近期AR眼镜/头显最新动态合集!
5850
相关推荐
分析2025年智能眼镜最新技术与动态
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档