以往对大数据的演化过程通常从单方面的观点描述,例如从年代或技术里程碑等方面。今天我们对大数据的演化过程从数据大小来刻画,大数据的发展历史和有效存储管理日益增大的数据集的能力紧密联系在一起。每一次处理能力的提高都伴随着新数据库技术的发展。因此,大数据的历史可以大致分为以下几个阶段。
•Megabyte到Gigabyte:
20世纪70年代到80年代,历史上的商业数据从Megabyte达到Gigabyte的量级,从而引入最早的“大数据”挑战。
当时的迫切需求是存储数据并运行关系型数据查询以完成商业数据的分析和报告。数据库计算机随之产生,它集成了硬件和软件解决问题,其思想是通过硬件和软件的集成,以较小的代价获得较好的处理性能。一段时间后,专用硬件的数据库计算机难以跟上通用计算机的发展。因此,后来的数据库系统是软件系统,对硬件几乎没有什么限制,可以运行在通用计算机上。
•Gigabyte到Terabyte:
20世纪80年代末期,数字技术的盛行导致数据容量从Gigabyte达到Terabyte级别,这超出了单个计算机系统的存储和处理能力。
数据并行化技术被提出,用于扩展存储能力和提高处理性能,其思想是分配数据和相关任务(如构建索引和评估查询)到独立的硬件上运行。在此基础上,提出了几种基于底层硬件架构的并行数据库,包括内存共享数据库、磁盘共享数据库和无共享数据库。其中,构建在互连集群基础上的无共享数据库取得了较大的成功。集群由多个计算机构成,每个计算机有各自的cpu、内存和磁盘。在过去几年,也出现了无共享数据库类型的产品,包括Teradata,Netazza,AsterData,Greenplum和Vertica。这些系统产品使用关系型数据模型和说明性关系查询语言,并成为使用分治法并行化数据存储的先驱。
•Terabyte到Petabyte:
20世纪90年代末期,web1.0的迅猛发展将世界带入了互联网时代,随之带来的是巨量的达到Petabyte级别的半结构化和无结构的网页数据。
这需要对迅速增长的网页内容进行索引和查询。然而,尽管并行数据库能够较好地处理结构化数据,但是对于处理无结构的数据几乎没有提供任何支持。此外,并行数据库系统的处理能力也不超过几个Teragbytes。为了应对web规模的数据管理和分析挑战,Google提出了GFS文件系统和MapReduce编程模型。GFS和MapReduce能够自动实现数据的并行化,并将大规模计算应用分布在大量商用服务器集群中。运行GFS和MapReduce的系统能够向上和向外扩展,因此能处理无限的数据。
2000年代中期,用户自主创造内容、多种多样的传感器和其他泛在的数据源产生了大量的混合结构数据,这要求在计算架构和大规模数据处理机制上实现范式转变。模式自由、快速可靠、高度可扩展的NoSQL数据库技术开始出现并被用来处理这些数据。2007年1月,数据库软件的先驱者JimGray将这种转变称为“第4范式”。他认为处理这种范式的唯一方法就是开发新一代的计算工具用于管理、可视化和分析数据。
•Petabyte到Exabyte:
根据现有的发展趋势,大公司存储和分析的数据毫无疑问将在不久后从Petabyte级别达到Exabyte级别。然而,现有的技术只能处理Petabyte级别的数据,目前仍没有革命性的新技术能够处理更大的数据集。
2011年7月,EMC发布了名为“ExtractingValuefromChaos”的研究报告,讨论了大数据的思想和潜在价值。该报告点燃了产业界和学术界对大数据研究的热情,随后几年几乎所有重要的产业界公司,如EMC,Oracle,Microsoft,Google,Amazon和Facebook,都开始启动各自的大数据项目。2012年3月,美国政府宣布投资2亿美元推动大数据研究计划,并涉及DAPRA、国家健康研究所NIH、国家自然科学基金NSF等美国国家机构。
没想到吧,大数据的历史阶段还可以这样划分。
领取专属 10元无门槛券
私享最新 技术干货