革命性信息技术—大数据
大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成了广泛主题的新颖研究。这也导致了各种大数据统计方法的发展。
大数据并没有抽样;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出了传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集庋用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节至数十兆亿字节不等。
大数据具有4个基本特征:
一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
大数据的作用
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。
第二,大数据是信息产业持续高速增长的新引擎。
第三,大数据利用将成为提高核心竞争力的关键因素。
第四,大数据时代科学研究的方法手段将发生重大改变。
领取专属 10元无门槛券
私享最新 技术干货