皮尤研究中心当地时间17日发表的研究发现,当前的在线内容仍然是“稍纵即逝”。
研究人员从Common Crawl(一项互联网档案服务,定期收集网站在不同时间点的快照)的档案中随机抽样收集了大约100万个网页,从2013年到2023年,每年从Common Crawl收录的网页中抽取样本,并检查这些样本在当下是否仍然存在。
数据显示,在2013年存在的网页中,约有38%如今已不可用,而在2023年存在的网页中,这一比例仅为8%。
在其从2013年到2023年收集的所有网页中,有25%到2023年10月已无法访问。这些网页无法访问的结果包含两种不同情况:16%的页面是网页不在域名还在;另外9%的页面则是连域名都不在了。
具体来看,在抽样调查的新闻网站中,23%的网页至少包含一个失效链接,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同,网站流量排名前20%的新闻网站中,约25%的网页至少包含一个失效链接;网站流量排名后20%的网站中,数据则是26%。
百科类网站方面,此次研究人员选择了维基百科的“参考链接”部分。在总共100多万个参考链接中,有11%已经无法访问;54%的维基百科网页参考链接至少包含一个失效链接。
社交网站方面,研究人员2023年3月8日至4月27日期间在社交媒体平台X(推特)上发布的近500万条推文样本,试图每日进行观察,直到2023年6月15日这些推文是否还在网站上。研究发现接近18%的推文在3个月内就基本不可见。其中六成是因为账号被设为私密、被冻结或注销;四成是因为账号发布者自己删除,但账号本身还活跃。(IT之家)
领取专属 10元无门槛券
私享最新 技术干货