前言
上周,谷歌发布了一个用于查找在线数据集的免费搜索引擎Dataset Search,将网络上零散分布的数据进行整合,以便科学家、数据记者、数据爱好者等人群找到他们工作和新闻报道所需的数据。目前,该搜索引擎处于测试阶段,支持英文和中文搜索。
我们知道,谷歌已有的专用搜索引擎包括谷歌新闻、谷歌图片、谷歌学术和谷歌图书等。而新发布的数据集搜索引擎专注于为学者和研究人员提供便利的数据资源搜索。正如NOAA(美国国家海洋和大气管理局)首席数据官Ed Kearns所说,“这种类型的搜索长期以来一直是开放数据和科学界许多研究人员的梦想。”该搜索引擎填补了这一领域的空白,可以极大地促进开放数据运动的发展,实现数据的开放利用和重复利用。
数据集是什么
数据集又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。网络上有成千上万的数据资源库,提供了数百万个数据集;而且世界各地的地方和国家政府也会公布他们的数据集。在大多数情况下,普通的搜索引擎既无法提供这些数据集相关信息的链接,也不会将这些信息编入索引,这会导致数据集查找变得无比繁琐,或者在某些情况下无法实现。而在当今世界,数据已经成了诸多学科领域的科学家和数据记者的命脉,如何快速找到他们想要的数据集是一个至关重要的问题。
谷歌发布数据集搜索引擎,希望借此改变用户发布和运用数据的方式。
数据集搜索能做什么
谷歌表示这个项目能够带来下列好处:
a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;
b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。
与谷歌学术搜索的工作方式类似,数据集搜索可让你找到托管在任何位置的数据集,无论是发布者的网站、数字图书馆还是作者的个人网页。为了创建数据集搜索,谷歌为数据集提供商制定了统一的描述数据的方式,这种方式使得谷歌(和其它搜索引擎)能更好理解页面内容。
具体来说,描述数据的元数据包括数据集的重要信息:谁创建数据集、何时发布数据集、如何收集数据、怎样使用数据等等。然后谷歌收集并链接此信息,分析同一数据集的不同版本的位置,并查找可能描述或讨论这个数据集的出版物。谷歌采用schema.org开放标准,任何发布数据的人都可以用这种方式来描述他们的数据集。谷歌鼓励大大小小的数据集提供商都采用这一通用标准,以便所有数据集都能被这个强大的搜索引擎查找到。
数据开放标准
只有数据发布者提供的元数据足够好,这种搜索工具的查找效率才高,因此谷歌号召数据集提供商都使用schema.org开放标准来描述数据。随着越来越多的数据资源库使用这种开放标准来描述数据集,用户能在数据集搜索中找到的数据集种类和覆盖范围将持续增长。如果发布了数据但未在结果中看到,可以访问谷歌开发者网站上的说明,其中还包含提问和反馈的链接。
Dataset Search 测试版地址:
https://toolbox.google.com/datasetsearch
推荐课程
参考资料:
https://www.blog.google/products/search/making-it-easier-discover-datasets/amp/
作者:王佳纯
编辑:Yiri
关注集智AI学园公众号
获取更多更有趣的AI教程吧!
搜索微信公众号:swarmAI
学园网站:campus.swarma.org
商务合作和投稿转载|swarma@swarma.org
领取专属 10元无门槛券
私享最新 技术干货