首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

纽约州立大学石溪分校:基于社会媒体文本的反事实思维识别

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第23篇论文

ACL 2017 Short Papers

基于社会媒体文本的反事实思维识别

Recognizing Counterfactual Thinking in Social Media Texts

纽约州立大学石溪分校

Stony Brook University

【摘要】反事实陈述主要描述未发生的事件及其后果,在事件解决、情感管理和行为规范等领域已经被广泛研究。具有更多反事实思维的人倾向于认为生活事件更具个人意义。然而,反事实在计算语言学中尚未开展一定研究。我们创建一个反事实推文数据集,并探索使用基于规则和监督统计方法来检测反事实的方法。一个基于规则与统计相结合方法得出的结果最好(F1 = 0.77),优于单独使用规则或统计的方法。

1 引言

反事实描述没有发生的事件,以及事件可能会发生(或可能不会发生),如果事件发生了(例如,“如果我没有摔坏我的手臂,我从来没有见过她”)。更准确地说,反事实条件具有“如果是A(或不是A)的情况,那么B(或不是B)就是”。

反事实在许多不同领域进行了研究。逻辑学家和哲学家的重点是前提与随之而来的反事实形式与结果之间的逻辑关系(Goodman, 1947)。相比之下,政治科学家通常对历史事件、政策或社会其他方面进行假设性测试,进行反事实思维实验(Tetlock,1996)。

特别是在心理学中,反事实思维被定义为作为过去事件、行为或状态替代的心理表征。已经探索了他们的使用与许多不同的人口统计学(年龄,性别)和心理变量(抑郁,宗教信仰)的相关性(Kray等,2010; Markman和Miller,2006)。反事实思维与认为生活事件更有意义、命运、甚至受到神圣的影响(Kray et al., 2010; Buffone et al., 2016)以及解决问题相关联,因为想象的替代结果可以很容易地想到需要改进的步骤(Epstude和Roese,2008; Roese,1994)。它也被证明与情感管理相关联,特别是在想象比实际发生的情况更糟糕的情况下(Epstude和Roese,2008; Roese,1994)

尽管反事实思维在其他领域已经被广泛研究,反事实语言形式在计算语言学中尚未得到研究。基于语言模型来识别社交媒体中的反事实思维,可以使用户根据自己的日常语言进行心理分析,避免了使用传统心理评估大规模捕获反事实思维的高额费用。

因此,在本文中,我们构建了一个基于语言的模型,以识别Twitter和Facebook的社交媒体文本中的反事实形式。这个任务有很多挑战。首先,反事实陈述的基准利率很低;我们发现在Facebook上只有2%的状态更新,1%的推文包含反事实陈述。第二,反事实陈述可以采用自然语言的许多形式。例如,他们可能会也可能不会使用明确的if 或 then 从句(例如,“If I had not met him then I would be better off 如果我没有见过他,那么我会更好”而不是“I wish I had not met him 我希望我有不认识他”)。

社会媒体文本中自然语言反事实的低基准率和高变异性,使得仅使用简单的语言学或统计特征难以识别出反事实思维。我们通过使用组合的规则和统计方法来应对这些挑战。我们成功的关键是确定七个子类型的反事实,从而具有更好的覆盖度。

2 相关工作

识别反事实在许多方面与识别篇章关系类似。在关系分类方面,反事实条件可以被看作是Penn语篇树库(PDTB)(Prasad et al., 2008)或Rhetorical Structure Theory修辞结构理论(RST)的条件关系的条件类型的子集(Mann and Thompson, 1987)。此外,像PDTB中的所有篇章关系一样,反事实具有隐含和明确的两种形式,因此不能通过特定词语的存在来进行唯一标识。

已经有很多研究人员尝试了使用PDTB和RST进行端对端篇章关系解析(Biran和McKeown,2015; Lin et al., 2009; Ji and Eisenstein,2014)。他们中的许多人使用依存分析或短语结构分析进行论元检测或基本语篇单元(EDU)分段来推断它们之间的关系。然而,社交媒体文本的长度短小且质量较差,这使得依存分析和短语结构分析的结构都不可靠。例如,发帖者经常丢弃句子主语。

其他工作主要集中在关系分类,其中假设给定关系的论元已经被确定(Park和Cardie,2012; Pitler等,2009)。他们在篇章关系的给定论证中探索各种学习算法和特征类型。然后,他们展示了哪些组合能给出每个篇章关系的最佳表现。

我们的工作尽管可以作为篇章关系分类中的任务,来关注反事实的关键特征,而不是对关系的每个论元的准确划分。大多数下游应用程序,如心理学研究,都需要知道是否存在反事实,而不是其确切的程度。

3 方法

我们使用基于规则的方法和受监督的分类器的组合来从Twitter捕获反事实陈述。

3.1 数据集

没有现有的反事实陈述语料库可用,所以我们收集了我们自己的数据集,从2014年5月和2014年7月的随机推文。如前所述,反事实陈述是罕见的,所以我们首先将随机推文设置为1,637个包含表示反事实关键字的(来自表1的Train和Test行)。关键词选择部分基于关于自发性反事实产生的现有文献,例如should have, at least, if only 或 next time(Sanna和Turley,1996)。我们基于对数据的直观检查,确定了进一步的反事实形式(例如wish)。接下来,我们使用关键字的总体列表挑选500个推文的样本,以便进一步的检查。消除了含有不合理高度错误的正向率的单词或短语。然后,经过良好训练的标注者手动标记1,637个推文,具有10%的正向,即产生166个反事实和1,471个负向样本。在训练中使用了一组随机产生的500个实例,其余的被保留用于测试。为了建立我们的训练集来捕捉所有形式的反事实,我们从2012年的随机推文中添加了一个训练数据集作为补充——使用具有布朗集群和PTB标注模型(在下文描述)的正则表达式,从我们为统计模型定义的七个反事实形式中的每个中至少抽取三十个tweets。通过这个过程,我们使得模型对于仅使用反事实提示短语收集的数据样本的偏差较小。此外,该模型比前人工作识别出了不同形式的反事实。为了评估反事实形式的标注,在第1,637个推文之间建立了标记间协议,第二个评分者实现了κ= 0.774和人工注释F1 0.791。

表1 数据集。‘CF’是反事实,‘Non-CF’是非反事实。

3.2 分类

我们首先使用基于规则的模型来从社交媒体文本中捕获反事实模式。然后,我们使用统计模型(线性SVM)通过用类似于反事实的形式识别棘手的假阳性形式(例如“wish you the best希望你最好”)来增加准确率。

基于规则的分类。我们基于规则的方法是基于七种形式的反事实(表2)。本文方法的核心是我们的理论,基于阅读文献,特别是(Kray et al., 2010),并研究了许多反事实例子,反事实有七种不同的形式,如表2所示。首先,我们删除由推特词性(POS)标签(Gimpel等人,2011)预测为“end of sentence句子结束”的问号结尾的句子。然后,我们使用基于提示短语(粗体)、POS标签和单词集群组合的正则表达式的模式匹配。基于一组Twitter Brown集群的词集合用于捕获社交媒体文本中的许多词语变化(例如,“shuldve”“should have”)。这种方法需要匹配分词和其词性,因为每个分词的POS标签对于反事实形式都是重要的。

基于规则的方法也是有用的,因为它允许我们检测反事实关系的论元;来自Conjunctive Normal / Converse形式和Verb Inversion形式的条件声明和结语声明,来自Wish Verb和Could / Would / Should have的反事实陈述。我们使用第一个动词短语或连接词作为边界来定制Biran的分界方法,以捕获陈述句中更多论元:对于一个论元检测,我们将语法词组(例如,将具有)与语句结尾对齐。对于两个参数,我们将条件词(例如,除非)与声明的结尾或第二个动词短语开始之间划分。

词性标注。我们使用Penn Treebank(PTB)的Tweet POS标签而不是Tweet POS标签(Gimpel等,2011),因为它包含更细粒度的类别,并产生更高的模式匹配准确率。例如,Tweet POS标签不区分情态动词、过去时态动词和其他类型的动词,而是将它们全部分类为“V”。然而,在许多形式的反事实中,来自其他类型动词的情态动词和过去式之间的区别是至关重要的(例如,Should / Could / Would Have形式)。最后,我们对Tweet POS解析结果进行后处理以获得更准确的预测。首先,我们删除RT标签和分词,因为它不是我们的任务信息。然后,我们将“USR”转换为名词,因为标记为“USR”的单词通常作为篇章关系观点的常用名词。另外,为了增强POS标签,我们使用布朗聚类来将情态动词的变化标记为“MD”,我们定义“CCJ”,一个用于区分其他类型条件连词的新标签(即“if”的布朗类)。

统计建模。每个反事实形式对于每种关系具有不同数量的论元,导致最多错误的特征也是不同类型的。因此,我们分别分析每种形式的错误,并使用不同的方法来确保最佳性能。

如果tweet匹配反事实表格1,2,3,4或5的规则,则使用训练有连续词(n-gram)特征的统计模型以及词汇和整个句子的POS标签进一步分类。

预期统计模型将捕获参数之间的一些隐含关系以及词汇和词性模式,但在基于规则的方法达到高准确率的情况下也可能会影响性能。因此,我们将统计学方法应用于不能轻易地通过表面模式区分的反事实形式。这些形式通过理论和实证分析进行选择;我们在评估部分进一步讨论这些形式。

表2 反事实形式

4 评估

如所讨论的,反事实不容易被规则或具体的词识别。鉴于其基准率较低和形式的多样性,传统的机器学习方法在随机推文样本上训练,往往会将所有推文标记为最常见的类(非反事实)。使用丰富的反事实训练集增加了准确率,但仍然给出了不平衡测试集上的低F1值。

因此,为了使分类器对不平衡数据集具有鲁棒性,我们设计了一种具有反事实形式的基于规则的模型,导致统计模型的假阴性率显著降低。此外,尽管在训练集中缺乏此类样本存在,但基于规则的模型捕获了所有可能形式的更正确的样本。这导致F1的整体性能大幅度提高。然而,准确率非常低,因为它不能在具有细微差别的模式内检测负样本。

表3 分类器性能

它的组合方法给出了最好的结果。如表3所示,统计模型获得了最高的准确率,而基于规则的模型获得了最高的召回率。然而,我们的整个流程(表3中的“CF解析器”)通过两种方法的组合获得了最佳的整体性能。

对于Wish Verb形式预测,从统计模型获得了较大的性能提升,因为高频率的假阳性具有诸如生日祝福或新年祝福等反事实形式。在分类为Wish Verb的样本中,反事实预测F1在统计模型的最终预测之后从0.82增加到0.90。

表4 每个过程的Ablation测试

最后,我们进行了ablation测试,以分析管道的每个过程如何影响分类器的整体性能(表4)。由于通常的tweet的结构相对简单而简洁(表4中的Arg),因此检测效果比我们预期的要低(F1.01)。

仅使用n-gram作为统计模型的特征,不使用PTB风格的Tweet POS标签,F1出现了相对较大的下降(0.02)。从语法的角度来看,n-gram比反事实的POS标签信息少,特别是考虑到社交媒体中每个单词分词有如此多的变化(例如,“clda”,“coulda”,“couldve”“could have”)。

我们研究了统计模型如何影响每个反事实形式的最终表现。我们用于滤除Wish Verb形式的频繁误报(例如birth day wishes)的模型在移除时会导致0.03 F1下降。此外,由于分类器不能对论元间的微妙关系进行反事实预测,所以当将用二维论元关系形式(Conjunctive Normal / Converse,Modal Normal, Verb Inversion)训练的模型从方法中移除时,将引起0.04 的F1下降。

5 结论

这是第一个在社交媒体中识别反事实的工作,我们希望更多的人能够解决这个问题。我们最好的结果是结合基于规则的方法,利用不同形式的反事实理论与重点统计方法重新分类具有挑战性的形式。我们的反事实预测器现在可以应用于心理学家和政治学家对知名教育、宗教信仰、政治导向、健康等感兴趣的人群的大量推特和Facebook帖子的收集,从而进一步研究其反事实使用理论。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180418G0JF6300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券