首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    以毒攻毒:愚人节恶搞文章可以用来识别假新闻!

    4 月 1 日至少有一个好处,你可以撒点谎而不必担心友尽。开玩笑啦!愚人节的真正好处是,提供了很多素材帮助语言学家识别「假新闻」。 英国兰卡斯特大学计算机和通信学院博士生 Edward Dearden 及其导师 Dr. Alistair Baron 就提出了一种建设性方法:利用愚人节那天网络上的假消息来研究欺骗性的语言,借此找出方法来识别「假新闻」。 他们发现,幽默的愚人节恶作剧——媒体每年4月1日发表的恶搞文章和恶意假新闻在写作结构上具有相似性。 研究者编译了一个新的数据集,或者说语料库,里面包含14年间的500多篇愚人节恶搞新闻。这些新闻来自370多个网站。 「愚人节恶搞文章非常有用,因为它们提供了很多可证实的欺骗性文本,让我们有机会发现写作者写作以假乱真的假新闻时所使用的语言学技巧。通过查看愚人节恶搞文章的语言并将它们和假新闻对比,我们能够更好地理解假新闻写作者使用的语言。」Edward 表示。 将愚人节恶搞文章和同时期写就但未在愚人节当天发表的真实新闻进行对比,我们会发现文体上的差异。 研究者集中于文本中的特定特征,例如使用的细节数量、模糊度、写作风格的正式性和语言的复杂度。 然后他们将愚人节消息和之前由另一组研究人员编译的「假新闻」数据集(参见《This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News》)进行了对比。 虽然从愚人节恶搞文章中发现的特征并非都对检测假新闻有用,但两者有很多相似的特征。 研究者发现相比真实新闻,愚人节恶搞文章和假新闻的语言复杂度都偏低,阅读难度也更低,而且句子更长。 研究发现,愚人节恶搞文章较少使用新闻报道中的重要细节,如名称、地点、日期、时间等。但是,假新闻比真实新闻更多地使用专有名词,如著名政治人物的名字:「特朗普」或「希拉里」等,而愚人节恶搞新闻使用的专有名词则较少。 第一人称代词(如「we」)也是愚人节恶搞文章和假新闻的重要特征。这与大家对欺骗检测的传统认知相反,传统观点认为说谎者更少使用第一人称代词。研究者发现愚人节恶搞文章与真实新闻相比,具有以下特点:

    02

    Hbase基础命令

    我们可以以shell的方式来维护和管理HBase。例如:执行建表语句、执行增删改查操作等等。 4.1 需求 有以下订单数据,我们想要将这样的一些数据保存到HBase中。 订单ID 订单状态 支付金额 支付方式ID 用户ID 操作时间 商品分类 001 已付款 200.5 1 001 2020-5-2 18:08:53 手机; 接下来,我们将使用HBase shell来进行以下操作: 1.创建表 2.添加数据 3.更新数据 4.删除数据 5.查询数据 4.2 创建表 在HBase中,所有的数据也都是保存在表中的。要将订单数据保存到HBase中,首先需要将表创建出来。 4.2.1 启动HBase Shell HBase的shell其实JRuby的IRB(交互式的Ruby),但在其中添加了一些HBase的命令。 启动HBase shell: hbase shell 4.2.2 创建表

    02
    领券