最近几十年间互联网数据量呈几何倍数增长, 随着企业产生和收集的数据越来越多,在认知层面企业对于数据的重视程度就越来越重。
但是呢这样就带来几个问题,
1)怎样存储这样大量的数据
2)怎样处理存储的数据
3)怎么提升处理效率
4)在数据量持续增长的情况下如何构建一个解决方案
这几个问题就是大数据技术发展中要去重点解决的几个问题。
在大数据领域就提出了两个概念,
1)分布式文件系统:用于存储大量的数据
2)分布式计算框架-MapReduce:它的作用就是高效的处理数据
这样问题就得到了解决。
这是大数据领域里两个非常重要的概念,这两部分又组成了一个名词,就叫做HADOOP。
就是通过分布式文件系统来存储大量数据,然后用MapReduce框架进行高效的数据分析和处理。
这就是HADOOP出现的一个前提环境。
在Hadoop技术出现以后,大数据技术的发展迎来爆发。
而Hadoop也以其独特的优势迅速占领大数据市场,成为大数据领域中独占鳌头的处理技术。
与其他的分布式系统比较,Hadoop集群的数据首先先进行分布式存储,存储效率比较高效;
集群上通过HDFS分布式文件系统,会把存储的数据复制多份,保证了数据的安全性;并且提供了一个简单的易用的分布式计算框架;另外就是Hadoop扩展性非常强,使用廉价的PC机就可以搭建出集群环境。
但随着硬件和技术的不断迭代发展,Hadoop在当下也遇到了新的难关。
在当今, 用户对数据管理和分析有了新的需求, 比如在线快速分析、存储和计算分离,或者人工智能和机器学习的AI/ML。在这些方面, Hadoop 只能提供有限的支持,无法与一些新兴技术相提并论。
对于客户来说,只要单一技术就能满足他们的需求,就不需要部署复杂的 Hadoop 平台。
从另一个角度看,云计算在过去十年左右的时间里发展迅猛,不仅击败了IBM、HP等传统软件厂商, 也在一定程度上蚕食了Hadoop的大数据市场。
时代的发展总是伴随着新技术的兴起与旧技术的衰落,这样的新旧交替从工业文明出现开始就存在,一直传承至今。
谁也无法精确预言下一个兴起的技术是什么,但我们也并非一无所知。只要你有耐心,能细心观察,总能在时代的发展中发现技术更迭的蛛丝马迹。
领取专属 10元无门槛券
私享最新 技术干货