Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop已死,Hadoop万岁

Hadoop已死,Hadoop万岁

作者头像
Fayson
发布于 2019-09-16 07:57:19
发布于 2019-09-16 07:57:19
1.6K0
举报
文章被收录于专栏:Hadoop实操Hadoop实操

云,在地平线之内

最近又有很多关于“Hadoop已死”的论调,似乎每隔一段时间就会有一些类似的文章或声音。几年前Cloudera就已经停止了以Hadoop来营销自己,而是一家企业数据公司。如今,Cloudera也已进入企业数据云市场:混合/多云和多功能分析,具有通用的安全和治理,所有这些都由开源提供支持。

话虽如此,但要挑战如潮水般“Hadoop已死”的负面消息,还是有难度的。我的看法是Hadoop代表的是数据领域的开源社区,这个社区本就是由我们共同创造和维护的,这一点在13多年的时间里,我从未改变。

什么是Hadoop

让我们从基础开始 - Hadoop作为Apache软件基金会的一个开源项目开始,使用HDFS和MapReduce实现批量应用,但很快就扩展成为一个广泛、丰富和开放的生态系统。今天Cloudera的“Hadoop发行版”(CDH/HDP/CDP)包含30多个开源项目,涉及存储,计算平台(比如YARN和未来的Kubernetes),批量/实时计算框架(Spark,Flink等),编排,SQL,NoSQL,ML,安全/治理等等。

所以,如果你认为Hadoop仅仅就是MapReduce,那么是的,我同意 - MapReduce正在没落。但这与Spark,Flink以及其它所有我们所接受的创新都没有关系,这些新特性或创新令我们的客户也非常满意。这就是这个平台的美丽与强大之处 - 它可以演变为拥抱新的范例。

那么,如果Hadoop不是“项目”或一组项目,它是什么?

就个人而言,“Hadoop”是一门哲学 - 向管理和分析数据现代架构的转变。

呃,再说一次?

“Hadoop哲学”

Hadoop哲学一直遵循以下原则:

1.向每个层(存储,计算平台,批处理/实时/SQL等计算框架)分解软件栈的转变,构建为可组合的乐高积木,远离单一且不灵活的软件栈(例如具有自定义存储格式,解析器以及执行引擎等垂直整合的数据库)。

a)特别是,这有助于建立一个开放元数据,安全和治理的平台,以让分解的软件栈和谐相处。

2.利用商用硬件构建大规模分布式系统并远离专有/单一硬件与软件的转变。

a)在经济理论中,商品被定义为具有充分或实质可替代性且具有广泛可用性的物品或服务,这通常导致较小的利润率并且减少除价格之外的因素(例如品牌名称)的重要性。

b)请参阅下文,了解如何从架构上做出很好的转变,以应对公有云的出现。

3.利用开放数据标准和开源技术,远离专有供应商控制技术的转变。它不仅仅是开放标准,标准是实现而不仅仅是“规范”。

4.向灵活且不断变化的技术生态系统(MRv1 -> YARN -> K8s,MapReduce -> Spark/Flink等)的转变,远离使用单一技术栈满足所有需求,从而在每个层面都实现创新。

在某些方面,“Hadoop哲学”是数据架构,Ken Thompson著名的Unix Philosophy是软件开发。Eric Raymond在著名的Art of Unix Programming一书中阐述的17条Unix规则,许多也适用于这个领域:

Unix Philosophy https://en.wikipedia.org/wiki/Unix_philosophy Art of Unix Programming https://en.wikipedia.org/wiki/Unix_philosophy#cite_note-11 17 Rules for Unix https://en.wikipedia.org/wiki/Unix_philosophy#Eric_Raymond's_17_Unix_Rules

1.模块化原则(Rule of Modularity):写简单的,能够用清晰的接口连接的代码。

  • HDFS,YARN/K8s,Spark,Hive等可以组合并相互依赖。

……

3.组件化原则(Rule of Composition): 设计可以互相关联(拆分)的程序。

  • Impala,Hive和Spark等都是高度可组合的,用于端到端的解决方案。

……

4.分离原则(Rule of Separation):策略和机制分离,接口和引擎分离。

  • HDFS既是文件系统接口,也是文件系统实现。这就是Spark通过Hadoop兼容文件系统“API”可以与S3对话的原因。

……

6.小巧原则(Rule of Parsimony):不要写大的程序(模块、方法)。除非很明显的,没有别的办法可以完成。

  • 我们避免“大”/“胖”层,而是使用依赖于另一个的模块化层。比如Phoenix和HBase

……

7.透明原则(Rule of Transparency):为可见性设计,使检查和调试更容易。

  • 开源For The Win(FTW)

……

16.多样性原则(Rule of Diversity):决不相信所谓"不二法门"或"银弹"的断言。

  • 我们的生态系统提供了多种工具,因为它们对于不同的场景有不同的优势(通过Spark或Hive进行ETL,通过Hive/Tez/LLAP或Impala或Spark SQL进行SQL查询)

17.可扩展性规则(Rule of Extensibility):设计着眼未来, 未来总比预想来得快。

  • 2005-2006年初,我们无法预测HBase,Hive,Impala,Spark,Flink,Kafka等的出现,13年来我们做了很多工作来使它们成为一流的关键组件。

关于云

现在公有云(以及私有云)显然已经成为企业部署架构的组成部分。

公有云基本上是企业硬件基础设施(服务器,网络,数据中心等)的商品化。因此,它完全符合“Hadoop哲学”的原则 - 专注于商品硬件。此外,整个Hadoop生态系统一直是为了“变形(shape-shift)”并吸收新的变化而建立的 - Tom White于2006年编写了第一个S3-Hadoop connector,亚马逊在2009年推出了EMR。

Tom White wrote the first S3-Hadoop connector in 2006 https://issues.apache.org/jira/browse/HADOOP-574

与此相比,传统数据库供应商分解单一和高度工程化/融合的硬件/软件栈使其能“原生”的在公有云中运行,可想而知会有多难。

不幸的是,作为一个行业,我们在帮助市场(特别是金融市场)了解“Hadoop”与传统技术在拥抱公有云的能力方面的区别不是太给力。有些事值得我们去思考以及去解决。

AWS EMR,Azure HDInsight和Google Dataproc是Hadoop如何在公有云中为客户大规模推动价值和业务的绝佳例子。

关于Cloudera

Cloudera是一家数据公司。我们使人们能够将数据转化为清晰且可操作的洞察力。我们通过拥抱“Hadoop哲学”来实现这一目标。我们建立了这个市场 - 我们为过去感到自豪,但不会被它蒙蔽。我们采用新的主流技术(公有云,Kubernetes等),因为这么做是有意义的,使我们的客户受益,并且与我们的使命一致。

我喜欢贝索斯的哲学:专注于不改变的事物从现在起一百年后,企业仍然希望将数据转化为洞察力。这就是我们的工作,并将继续这样做。

Focus on things that don’t change https://www.inc.com/jeff-haden/20-years-ago-jeff-bezos-said-this-1-thing-separates-people-who-achieve-lasting-success-from-those-who-dont.html

对我们来说,有些事情已经发生了变化,我们需要注意到。五年前,当我们成为“it”技术时,我们获得了一个大厅通行证(hall pass)。所有很酷的孩子都想跟我们绑在一起,给我们带来了他们能找到的所有用例,并将我们展示给他们的朋友。在某种程度上,“答案是Hadoop - 问题是什么?”是普遍存在的情况。这导致了一些不合理的期望,这些期望在产品生命周期中是不现实的,或者过早。

现在我们必须更努力地说服客户使用我们带入市场的东西,但我们带给他们的价值和理念是毋庸置疑的。我们还需要说服客户使用我们这些技术,如CDP。今天他们依旧与我们合作,正如他们在我们的平台上运行的数千PB数据和数百万分析应用程序所证明的那样!

从本质上讲,我们将通过参与用户和企业想要存储/管理/保护/管理/分析数据的用例来继续蓬勃发展。我们愿意被误解一段时间,因为这些负面消息会重复出现,然后会慢慢消退,因为我们用结果来证明一切。所有伟大的公司会不时被误解,但经久不衰的公司会坚忍不拔。

我前几天在社交媒体上看到了这个评论:

“如果我在Kubernetes上使用CDP运行Spark来分析S3中的数据,那么Hadoop在哪里?”

我其实笑得很开心,并且想:

只要您使用CDP服务...... :-)

Gartner分析师Merv Adrian喜欢讲述一个类似的故事,一个客户称他“最喜欢的Hadoop应用程序”是使用Spark运行TensorFlow分析S3中的数据。Merv问他为什么那是Hadoop,他回答说:“它是“Hadoop”,因为Hadoop团队建立了它”。此外,使用的Spark确实来自Hadoop发行版。因此Merv指出:“情人眼里出Hadoop”。

CDP的基本目标是作为一个云服务,让企业不用面对大量复杂的技术,而能够更简单的从平台获取价值。特别是我们在CDP中为数据仓库机器学习提供原生的SAAS服务,使业务用户可以轻松的对云对象存储中的数据进行分析。此外,SDX使用ABAC和存储在对象存储和本地HDFS中的数据的细粒度策略建立完全安全的数据湖,以及治理和加密(包括存储加密和传输加密)。我们在这方面取得的进展非常非常令人兴奋 - 正如我们从许多企业客户提供的反馈中看到的那样!

所以,Hadoop已死?

你所认为的传统的Hadoop已经死了,确实如此。但Hadoop作为一门哲学,推动不断发展的开源技术生态系统和开放数据标准,使人们能够将数据转化为洞察力,这门哲学是充满活力和持久的。

只要有数据,就会有“Hadoop”。

Hadoop已死,“Hadoop”万岁。

Apache Hadoop,Apache Spark,Apache Flink,Apache Hadoop HDFS,Apache HBase等都是Apache Software Foundation的商标。

作者:Arun C Murthy Cloudera现任CPO,原Hortonworks联合创始人与CPO。自2006年Hadoop诞生就大量参与数据工作。老的体育灵魂,牧羊犬工程师。 原文地址: https://medium.com/@acmurthy/hadoop-is-dead-long-live-hadoop-f22069b264ac

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
撕掉“Hadoop”标签,Cloudera 未来还可期吗?
2000 年初,Google 的三篇论文奠定了最近二十年大数据的技术发展基调,也催生了 Hadoop 生态的发展和繁荣。借助 Hadoop 的东风,一批大数据企业成长了起来,Cloudera 便是代表之一。不过,Hadoop 势弱、Spark 和云计算快速崛起后,Cloudera 等大数据企业面临着或淘汰或转型的命运。
深度学习与Python
2021/12/28
5830
撕掉“Hadoop”标签,Cloudera 未来还可期吗?
Hadoop,凉了?那还需要它吗?
近日,Hadoop 领域发生几件不太美好的事情,先是 MapR 宣布如果无法获得新的投资,就必须要裁员百余人,并关闭硅谷总部,再是 Cloudera 股价暴跌 43%,估值缩水。
大数据技术架构
2019/08/16
3.6K0
Hadoop,凉了?那还需要它吗?
2019年,Hadoop到底是怎么了?
目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,Apache Hadoop 在 2019 年是否还是一个可选方案。
王知无-import_bigdata
2019/07/09
2.1K0
2019年,Hadoop到底是怎么了?
Cloudera和Hortonworks 合并的整体梳理
0. 下一代的企业数据云     将创建世界领先的下一代数据平台提供商,涵盖多云,内部部署和Edge。该组合为混合云数据管理建立了行业标准,加速了客户采用,社区发展和合作伙伴参与。     我们两家公司的业务具有很强的互补性和战略性。通过将Hortonworks在端到端数据管理方面的投资与Cloudera在数据仓库和机器学习方面的投资结合起来,我们将提供业界首个从Edge到AI的企业数据云。这一愿景将使我们的公司能够在追求数字化转型的过程中推动我们对客户成功的共同承诺。     两个公司希望通过合并,创造出一个年收入达到 7.2 亿美元的新实体,并制定清晰的行业标准,成为下一代数据平台领先者,提供业界第一个企业级数据云,提高公共云的易用性和灵活性     一直以来 Hortonworks 团队投资于实时数据流和数据摄取以支持边缘的物联网使用案例,而 Cloudera 更专注于 AI 和 ML 领域,使数据科学家能够使用极其复杂的工具来自动化机器学习工作流。     Cloudera新的CDP平台会同时支持运行在本地,私有云,以及5个最大的公有云包括Amazon,Microsoft,Google,IBM和Oracle     第一个CDP版本将包含CDH6.x和HDP3.x中的一系列组件,并将专注于运行客户现有的工作负载和数据     两家公司对外正式宣称统一版本会基于最新的HDP3.0+CDH6.0     Hadoop 商业化最典型的公司就是Hadoop的三驾马车——Hortonworks、Cloudera和MapR。     昨天我们是 Hortonworks,今天,随着我们合并的正式完成,我们是 Cloudera——现在是全球第二大开源软件公司。”,目前全球第一大开源软件公司仍旧是红帽。 1. 新的趋势     1.1 企业向公有云转变(aws,azure,google cloud)         hadoop/spark 只是其一部分     1.2 云存储成本底 对象存储服务(aws s3,axure blob,google 云端存储)         比hadoop/spark 便宜了5倍     1.3 云服务器 以完全不一样的方式解决了同样的问题,运行即席查询         用户按计算时间计费,无需维护操作hadoop/spark集群     1.4 容器,kenernates和机器学习,今天在python/R语言下进行机器学习,容器与kubernates 为分布式计算提供了更加强大灵活的框架         不打算基于hadoop/spark 进行分发心得饿微服务应用程序 2. 产品影像     2.1  毫无疑问         对于一些无论是Cloudera还是Hortonworks都打包的较为通用的的组件,基本可以毫无疑问的确定会包含在统一版本中。具体包括核心的Apache Hadoop项目如MapReduce,HDFS和YARN - 以及Apache Spark,Apache Hive,Apache HBase,Apache Kafka,Apache Solr,Apache Oozie,Apache Pig,Apache Sqoop和Apache Zookeeper。             我们对新兴的对象存储项目Apache Hadoop Ozone的信心略有不足     2.2 存疑的          有一些开源项目目前仅包含在CDH或HDP中,而Cloudera也没有与之专门对标的产品,它们是否能包含在合并版中目前还存疑。比如说Apache Kudu和Apache Impala,这2个最初都是由Cloudera开发的,用于提供列式数据存储和ad hoc的分析,而最近Hortonworks引入了Apache Druid与之对应。     2.3 有争议的         Apache Ambari直接与Cloudera Manager竞争,再比如Cloudera使用Cloudera Navigator来实现数据治理和数据溯源,而Hortonworks则使用Apache Atlas。     Cloudera将清楚地意识到任何关于它想要扼杀开源功能的建议都将被认为是“大棒”,而不是“胡萝卜”,它将不会被Hortonworks客户和Apache软件基金会开发社区所接受。这是我们认为Cloudera如果想要退出开源需要很谨慎的考虑的另一个原因 - 至少在短期内如此     注:“Carrot and stick”(胡萝卜加大棒)
Freedom123
2024/03/29
2040
重磅 | Hadoop的第二个十年
https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713
Fayson
2020/02/18
6480
重磅 | Hadoop的第二个十年
Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。
PP鲁
2019/12/26
1.6K0
Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?
大数据概况及Hadoop生态系统总结
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
全栈程序员站长
2022/08/30
7130
大数据概况及Hadoop生态系统总结
Hadoop 概述
1)Hadoop创始人Doug Cutting,为 了实 现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。
丘山水工
2025/01/29
1310
Hadoop 概述
Apache Hive 3架构概述
了解Apache Hive 3的主要设计功能(例如默认的ACID事务处理)可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。
大数据杂货铺
2020/11/25
1.7K0
Apache Hive 3架构概述
Hadoop 生态系统的构成(Hadoop 生态系统组件释义)
现在先让我们了解一下 Hadoop 生态系统的构成,主要认识 Hadoop 生态系统都包括那些子项目,每个项目都有什么特点,每个项目都能解决哪一类问题,能回答这三个问题就可以了(本段属于热身…重在理解 Hadoop 生态系统组成,现状,发展,将来)。
全栈程序员站长
2022/08/26
1K0
Hadoop 生态系统的构成(Hadoop 生态系统组件释义)
hadoop生态圈相关技术_hadoop的生态
  最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又衍生了子项目Hadoop。Lucene是一个功能全面的文本搜索和查询库,Nutch目标就是要试图以Lucene为核心建立一个完整的搜索引擎,并且能达到提到Google商业搜索引擎的目标。网络搜索引擎和基本文档搜索区别就在规模上,Lucene目标是索引数百万文档,而Nutch应该能处理数十亿的网页。因此Nutch就面临了一个极大的挑战,即在Nutch中建立一个层,来负责分布式处理、冗余、故障恢复及负载均衡等等一系列问题。
全栈程序员站长
2022/11/17
8740
hadoop生态圈相关技术_hadoop的生态
Hadoop基础知识总结
Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。
石晓文
2019/06/17
1.6K0
Hadoop体系_集团架构
自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Window、Linux、Java一样,它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中,如Facebook、Yahoo等,围绕大数据Hadoop技术产生了一系列大数据的相关技术
全栈程序员站长
2022/11/03
1.2K0
Hadoop体系_集团架构
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述
在当今大数据时代,处理海量数据成为了一项关键任务。Hadoop作为一种开源的分布式计算框架,为大规模数据处理和存储提供了强大的解决方案。本文将介绍Hadoop的组成和其在大数据处理中的重要作用,让我们一同踏上学习Hadoop的旅程。
老虎也淘气
2024/01/30
7340
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
Hadoop 是采用了 Map Reduce 的一种分布式的计算框架,它是根据 GFS去开发了 HDFS 分布式文件系统,还有根据 Big Table 开发了 HBase数据存储系统。可以了解到的是,Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。
Maynor
2023/03/18
3710
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
一文看懂大数据生态圈完整知识体系
随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。 目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。 1 数据采集技术框架 数据采集也被称为数据同步。 随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大
江南一点雨
2022/08/25
1.2K0
一文看懂大数据生态圈完整知识体系
大数据开源框架技术汇总
Hadoop:Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出,2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进,它将服务器与普通硬盘驱动器结合,并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表,形了成完整的生态圈,已经成为事实上的大数据标准,开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化,增加了基于内存计算模型,提高了计算效率。比较普及的稳定版本是2.x,目前最新版本为3.2.0。
Spark学习技巧
2021/03/05
2.3K0
全球100款大数据工具汇总
企鹅号小编
2017/12/29
1.5K0
全球100款大数据工具汇总
大数据平台技术栈
Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。
物流IT圈
2019/07/16
2.2K0
大数据平台技术栈
大规模SQL分析:为正确的工作选择正确的SQL引擎
我们都渴望获得数据。不仅是更多的数据……还有新的数据类型,以便我们能够最好地了解我们的产品、客户和市场。我们正在寻找有关各种形状和大小(结构化和非结构化)的最新可用数据的实时洞察力。我们希望拥抱新一代的业务和技术专业人员,这些人员是对数据和能够改变数据与我们生活息息相关的新一代技术有真正热情。
大数据杂货铺
2020/02/11
1.3K0
大规模SQL分析:为正确的工作选择正确的SQL引擎
相关推荐
撕掉“Hadoop”标签,Cloudera 未来还可期吗?
更多 >
交个朋友
加入[数据库] 腾讯云官方技术交流站
数据库问题秒解答 分享实践经验
加入数据技术趋势交流群
大数据技术前瞻 数据驱动业务实践
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档