首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

国会图书馆 7 年前计划收集每一条推文,现在放弃了

2010 年,美国国会图书馆(Library of Congress)曾推出过一个规模和耗时都相当大的项目:收藏所有公开在 Twitter 上的推文,以便后续为研究人员使用。

但这个项目运行得不顺利。最近,国会图书馆宣布要缩小该项目的规模,聚焦在少数几个重要的事件上,例如总统选举、美国政策变化等。

成立于 1800 年的国会图书馆服务于美国国会,主要目标是在调查研究、信息提供上协助国会,

号称是

世界上最大的图书馆。该图书馆收集了大量的书籍、政府网站资料,也一度是数字化的先驱。在互联网兴起前,国会图书馆 1990 年推出了针对美国 K12 教育的数字化项目《美国的记忆》,包含口述文字、录音、照片等,采用激光影碟和光盘存储资料,分发给学校。

2010 年 4 月,国会图书馆宣布跟刚成立 4 年的创业公司 Twitter 公司达成合作,计划把 Twitter 上所有的公开推文(不包括私人、已经删除的推文,不包含链接)打包成数据包,传送给国会图书馆保存。当时,Twitter 刚成立 4 年,每月有 3000 万用户访问该网站,Twitter 上市是在 2013 年。

这对于国会图书馆是相当少见的一个项目。一方面是因为 Twitter 刚成立不久,另一方面,这也是国会图书馆第一次收集这样长期、覆盖面较全的数字内容,第一步计划是把 2006 - 2010 年的推文收录到图书馆内。

国会图书馆当时称Twitter 上的用户推文重要,值得保存:“Twitter 是通讯、新闻报道和社会趋势的历史记录的一部分,这些可以作为国会图书馆现有文化遗产的补充。”

作为说明,在国会图书馆里,数字内容的保存靠两份异地存放的磁盘进行。在 Twitter 这个案例上,Twitter 指定了 Gnip 公司来传输实时的推文数据。Gnip 将数据包以小时分隔,上传到服务器供图书馆检索。图书馆将这些数据包下载到另外的临时服务器区域,在检查材料的完整性、推文数量后,将其复制到磁盘上,然后删除临时服务器上的资料。

但这项计划还是缩减了。本月 26 日,国会图书馆宣布,从明年 1 月份开始,收集推文的范围就被缩小到少数几个重要事件。国会图书馆称调整的原因背后是两方面原因,图书馆通常不会做全面的收录这一原则,以及 Twitter 本身的变化,包括推文数量的大幅增长、更多的图片,140 字字数限制也放开了。

一部分原因跟 Twitter 用户增长,推文数量大幅增加确实有关系。每天的推文数量从 2011 年 2 月的 1.4 亿条,到了 2012 年 10 月份,国会图书馆每天接收将近 5 亿条推文。

另外一部分原因是资金。在 Twitter 推文的收录只需要很少的资金,但后续的维持、研究功能需要更多的钱。国会图书馆在 2013 年更新该项目进度时称,Twitter 的数据传输、Gnip 公司的服务都是免费的,项目大概需要数万美元。按照当时的说法,在 2006 - 2010 年的推文数据里进行一次搜索需要24 小时,改善搜索速度预计需要数百台服务器,这对于国会图书馆是个挺大的压力。

不过,更大的问题可能在于,在给 Twitter 建存档时,现在已经处于数字化落后的国会图书馆没有足够的项目管理能力和规划。2013 年 3 月份,副馆长 Robert Dizard Jr. 称,他们计划在 3 个月后将该存档开放给内部使用。但直到今天这份档案都没有开放给研究人员使用。《大西洋月刊》在去年 8 月份报道称,国会图书馆在该项目上的人力投入存在问题。没有长期的工程师专门负责该项目,经常出现员工将未处理的推文数据重新扔回服务器上。

美国政府问责局(GAO)2015 年给出的报告显示,国会图书馆缺乏对 IT 设备有效的管理,也不审核、追踪投资。他们也抱怨该图书馆在 Twitter 项目上不积极汇报进度。

事实上,Twitter 早已开始利用自己的推文数据赚取数百万美元的收入,在 2014 年它还买下了 Gnip 公司。不过,Twitter 跟国会图书馆的合作仍在继续。

这一系列暴露国会图书馆在技术上的短板,可能很大程度上都跟 2015 年卸任的前任馆长 James Billington 有关系,他曾因拒绝使用电子邮件被学者投诉。民主党众议员 Zoe Lofgren 评价称:“Billington 做过很多精彩的事情,但是理解技术不是其中之一。”

接任的新馆长 Carla Hayden被前美国总统奥巴马评价为是相当熟悉技术,推动图书馆进入数字时代的人,可能会减少类似 Twitter 这样的烂尾项目。

题图来自:pexels

我们做了一个壁纸应用,给你的手机加点好奇心。去 App 商店搜好奇怪下载吧。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171230A045DU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券