首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

创造家庭大和谐,用 AI 给爹妈做个辟谣助手

这些标题在具有一定科学素养的年轻人看来,根本不用点开,就知道是谣言或者过度夸张,但这些文章却在父母辈的微信群和朋友圈里每天疯传着。

虚拟世界的消息难以判定来源和真假,尤其对于父母,只要某篇文章中提到复杂的科学知识或者生僻的科学机构,甚至再加上一些爱国、感性情绪的煽动,他们就更容易被谣言迷惑,甚至成为传播中的一环。

很多平台都在用想方设法建立辟谣机制,这种机制在过去主要是投诉+人工审核,但是以人工的形式,依然是杯水车薪。

同一个世界,同一个谣言

这个问题在美国同样发生着, 国内常说的“谣言”,英文往往翻译为「Rumor」,实际上这个词是流言、传闻的意思,比较严谨的新闻机构可能会将其翻译为「False Rumor」,即虚假传闻。

有趣的是,当我们想要比较哪类谣言最容易被广泛传播,发现全球的谣言制造者都选择了名人死亡新闻。

金庸先生几乎每年都会被去世

类似的谣言在美国也不少见

用 AI 净化新闻

在美国,有一位工程师 Aaron Edell 通过 AI 完成了一个「FakeBox 假新闻探测器」,虽然正确率还相对高,但是这些内容首先是英文语境不适用于中文体系,其次是如果真付诸于商用,还有很大的提升空间。不过他的研究过程肯定对从事类似方面研究的专业人士有很大的参考价值。

「FakeBox 假新闻探测器」的设计过程也并非一帆风顺,成功的最重要的转折点在于,他把目标从判断假新闻变成判断真新闻 —— 真相总是一致,而假象则多种多样。

以下,是他在设计 FakeBox 时的心路历程:

第一个问题:如何定义假新闻

我遇到的第一个困难比较出乎意料。在研究一些假新闻之后,我发现假新闻也不全是假的,有些新闻是过度夸张,有些新闻是未经证实。多以其实假新闻也应该分为不同类型:明显错误、真假参半、完全伪科学、伪新闻评述等等。

所以,假新闻必须全面筛查逐个剔除。

第一次实验:用情绪分析模型解决问题

一开始,我自己先做一个小工具,使用爬虫来抓取文章标题,描述,作者和内容,并将结果发给情绪分析模型。我使用了Textbox,它可以快速反馈结果,非常方便。每一篇文章,Textbox 都会反馈一个分数,5 分以上就是正向反馈,5 分以下就是负面反馈。我还做了一个小算法来分别计算文本的标题、内容,作者等的分数,并将它们加在一起,来确保平分是全面和综合的。

起初它还运行得很好,但在我测试第7或第8篇文章后就不行了。不过这个设计雏形,距离我想象中的谣言探测系统很接近了。

不过结果是失败。

第二次实验:用 NLP 模型解决问题

我朋友 David Hernandez 推荐我对文本本身进行模型训练。我试图理解假新闻中的特征,比如网站来源、作者名字,看看能否快速建立一个数据集来训练模型。

我们搜集了几天大量的不同种类的数据集,看似对训练模型都很有用。我们自认为数据集足够大,但其实数据集的内容从最开始就没有被正确分类,因为有些被标记为“假”或“误导”的网站有时也会有真实的文章,或者只是转发别的网站的内容,所以结果也不太理想。

我开始亲自阅读每一篇文章,花费很长时间处理数据,虽然这个过程非常的辛苦,我在这些天中看到这些虚假、恶意甚至暴力的新闻时,会对网络催生出的文明产生怀疑,但也希望更多的人可以通过更好的工具避免自己被谣言荼毒。在我介入了人工审核之后的数据集,在测试中大约达到了 70%的准确度。

但这种方式有一个致命的短板,我们尝试用数据集之外的文章抽查之后,依然无法正确的判断信息真伪。

所以还是失败。

第三次实验:别找假新闻做数据集,找真的

这件事成功的转折点是 David 的一个建议点醒了我:建议提高准确度的关键可能是简化问题。也许我们要做的不是检测假新闻,而是检测真实新闻。因为真实新闻更容易分类——文章都是事实和重点,几乎没有多余的解释,并且有大量的资源去确认新闻的真实性。于是我开始重新收集数据。

我只将新闻分为两个标签:真实的和非真实的(real and notreal)。 不真实的包括讽刺、评论文章、假新闻以及其他没有以纯粹的事实方式写作的文章。

这次我们成功了,并且准确度高于95%。

这个模型被起名为 Fakebox ,它会给每篇文章打分,如果得分非常低,那可能意味着文章是假的、评论文章、讽刺文章或其他。而且 Fakebox 还拥有一套 REST API,你可以将它集成到任何环境中,也可以部署 Docker 上。

但是它依然有一个短板:如果文章太短,或者主要包含其他人的观点或引语,那么它可能很难判断出真假。

所以,Fakebox 并不是最终的解决方案,但Aaron Edell希望这个模型会对需要被辨别真假的文章有帮助。

《为什么 10.24 是程序员节?》

《 这篇 Paper 有毒!》

《面对亲友,如何解释人工智能?》

超神经 HyperAI

公众号ID:HyperAI

关注

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180326G1QKEG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券