过去一年来,无论是新闻从业者、政策制定者还是科技公司,都十分关注探寻有效应对网络虚假信息的方法。在碎片化阅读的媒介环境下,“假新闻”的轰动使得长期压抑着的对于政治谎言和网络谣言的愤怒大规模爆发,应用技术手段解决虚假信息传播问题的呼声越来越强烈。
本文是牛津大学路透新闻研究所的资深研究员Lucas Graves对新闻业逐步兴起的自动事实核查(automated fact-checking)的研究,RUC新闻坊将之编译如下,希望能帮助大家了解此领域的发展状况。
发展现状
早在十多年前,新闻业就有人提出了采用“自动事实核查”的提议。在过去的几年中,越来越多的研究将“自动事实核查”作为人工智能领域中的研究问题,且研究多与人工信息核查者的实验相交融。近期的两项名为“速度与激情:事实核查挑战”和“假新闻挑战”的编程比赛邀请来自世界各地的研究团队在各种常见问题上测试不同的自动事实核查技术。
在过去两年内,关于自动事实核查的研究得到了越来越多的资金支持。总部位于伦敦的事实核查慈善机构Full Fact于2016年开始开发自动事实核查工具,已获得来自谷歌公司的50,000欧元经费支持,最近又宣布获得来自Omidyar基金会和Open Society基金会的50万英镑的额外资金支持。
杜克大学的杜克记者实验室在2017年底获得来自奈特基金会,脸书新闻项目和Craig Newmark基金会的120万美元的资金支持,用于启动“科技与核查合作社”( Tech & Check Cooperative)。今年1月,开发自动事实核查平台的伦敦创业公司Factmata也宣布获得100万美元的种子基金。
主要研究发现
基于对既有研究的梳理和对事实核查员、计算机科学家的访谈,本研究主要发现如下:
人类事实核查人员所能覆盖的核查领域要求他们有一定的判断能力,对信息的相关背景有一定的敏感度,但这对于自动事实核查来说仍然遥不可及。
自动事实核查领域的研究进展迅速,但目前仅能对权威数据库中有限范围的事实性陈述进行核查。且自动事实核查系统在可预见的未来仍然需要人工监督。
研究人员和从业人员都认为,目前自动事实核查技术发展的真正意义在于帮助事实核查员发现和核查需要验证的信息,并尽可能提供有效核查结果。
迄今为止,独立的非营利性事实核查组织已经率先开发和应用自动事实核查软件,而传统媒体机构对此领域的关注较少。
目前,一些自动事实核查工具是由小团体研究者用较少的经费设计完成的。然而,促进自动事实核查技术的发展、开发大型自动事实核查系统需要来自基金会,大学和平台公司的持续支持。
自动事实核查的要素
自动事实核查的研究一般侧重以下研究目标:发现网络上流传的虚假或可疑信息; 核实有疑问的信息,或为记者和公众成员的信息核实提供便利;通过不同的媒体平台将修正的信息迅速地传达给受众。此种终端到终端的系统旨在解决三个主要目标:对于虚假信息的识别,检验和纠正。
自动事实核查的核心要素:识别、检验、纠正
自动事实核查的路径
自动事实核查的首要任务是监控网络平台和媒体中各种形式的公共话语——包括演讲、辩论、评论、新闻报道等。这并不是一个简单的问题,可能涉及从媒体或政治文件中抓取信息、监控现场字幕输入或使用自动转录技术等。
01
识别虚假信息
自动事实核查领域最成功的研究进展即为从演讲或文章等文本中提取分散的事实信息。最常见的方法为依靠自然语言处理和机器学习相结合的方式来确定要核查的事实的优先顺序。
例如,德克萨斯州阿灵顿大学开发的自动事实核查平台ClaimBuster(迄今为止投资了大约150,000美元),以过去的美国总统竞选辩论为基础材料,训练了约20000个句子,以学习区分值得核查的观点和无聊的陈述性事实。
当下,世界各地的很多事实核查机构已经开始依靠软件来帮助确认需要核查的信息。 例如,美国的杜克记者实验室最近已部署使用ClaimBuster,向PolitiFact、FactCheck.org、华盛顿邮报和美联社提供可能值得核查的信息。但截至目前,此类软件只能识别简单的陈述性语句,无法辨别那些人类能轻易识别的复杂句子中的隐藏含义。
自动事实核查软件ClaimBuster
02
检验信息
专业事实核查组织通常需要具备理解背景、进行判断并综合来自多个消息源的证据的能力。许多信息并不能进行简单的真假判断,且即使看起来可以被人们轻易揭穿的声明,例如现在臭名昭著的英国脱欧运动声称“英国离开欧盟将节省每周3.5亿英镑”,这对于自动事实核查来说也是棘手的挑战。
自动事实核查领域的很多专家都认为,虽然已经在这一领域取得了一些成就,但自动事实核查的发展仍然任重而道远。正如谢菲尔德大学教授Vlachos所说: “PolitiFact或FullFact所能做的事实核查,远远超出我们现在能够达到的水平。甚至可能我们在5年或10年后才能达到那样的水平。”
自动事实核查APP FactStream
03
与已核查过的事实进行比对
当下,自动事实核查的最有效的方法是将信息与已由一个或多个事实核查组织核查过的信息库进行比对。
一些事实核查机构已开始使用这种方法。 例如,Full Fact的内部自动事实核查平台会不断监测一系列媒体机构发布的信息,尤其是该组织已经核查过的信息。杜克记者实验室也希望在几个月内测试一个自动事实核查系统,该系统将ClaimBuster选出的值得核查的信息与FactCheck.org,PolitiFact和使用Share the Facts数据库的其他事实核查平台的信息相比对。
正如杜克记者实验室的负责人 Mark Stencel所说:“我们的目标不仅是提升报道速度,同时也要加快自动事实核查系统的诞生。......这是我们的整个模型,它不是试图一次性克服所有自动事实核查中的大问题,而是将各种挑战分解为一个一个可解的任务。随着时间的推移,这些任务将会推进自动事实核查系统的真正诞生。”
04
与权威信息比对
目前,如何使自动事实核查能像人工事实核查那样依靠原始信息源,这是一个难题。从理论上讲,这可以大大拓展能够进行自动事实核查的信息范围。 但这也同样要求在鉴定出值得核查的信息之后,自动核查工具能区分所需核查的数据类型,并能在相应的权威机构找到可被机器读取和处理的资料。
结论与讨论
自动事实核查一直是研究人员和从业人员合作密切的研究领域。这一领域的研究进步将主要取决于两个因素:对基础研究和实验的经费支持,以及政府和民间社会团体在建立开放数据库方面的进展。那些拥有成熟事实核查经验的传统新闻机构也可以为自动事实核查作出巨大贡献,且这对于他们自身的发展来说也是大有裨益。
作者简介
Lucas Grave
牛津大学路透新闻研究所高级研究员
本期编辑:郭玮琪
领取专属 10元无门槛券
私享最新 技术干货