开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

简单解释MapReduce？

Reduce是一种编程模型，用于处理和生成大规模数据集，它将数据处理任务分解为两个主要步骤：Map（映射）和Reduce（归约）。MapReduce的核心思想是将一个大任务分解为若干个小任务并行执行，以提高处理速度和效率。

Map（映射）阶段：在这个阶段，数据被输入到系统中，并通过Map函数进行处理。Map函数读取输入数据，对其进行转换和处理，并生成一系列的键值对。这些键值对被发送到Reducer进行处理。

Reduce（归约）阶段：在这个阶段，Reducer函数接收来自Map函数的键值对，并根据键进行分组。然后，Reducer函数对每个键的值进行处理，生成一系列的输出结果。

MapReduce的优势：

可扩展性：MapReduce可以在大量的计算节点上并行运行，处理大量数据。
容错性：MapReduce具有良好的容错性，即使某个计算节点出现故障，其他节点仍然可以继续运行。
简化编程模型：MapReduce将复杂的分布式计算任务简化为两个简单的步骤，使得开发人员可以更容易地编写分布式程序。

应用场景：MapReduce广泛应用于数据挖掘、机器学习、大数据处理等领域。例如，Hadoop是一个基于MapReduce的大数据处理框架，可以用于处理大规模数据集，并支持分布式存储和计算。

推荐的腾讯云相关产品：腾讯云CVM（云服务器）和Ckafka（消息队列）可以用于搭建MapReduce集群，以处理和分析大规模数据。腾讯云COS（对象存储）可以用于存储和管理数据，而腾讯云CLB（负载均衡）可以用于分发任务和负载均衡。

产品介绍链接地址：

CVM：https://cloud.tencent.com/product/cvm
Ckafka：https://cloud.tencent.com/product/ckafka
COS：https://cloud.tencent.com/product/cos
CLB：https://cloud.tencent.com/product/clb

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hive 基本架构

hive是一个著名的离线处理的数据仓库，可以通过类SQL语言轻松的访问大量的数据集，也可以访问HDFS中的文件，但是其底层的实现是MapReduce,所以具有较高的可扩展性。但是hive不是RDBMS数据库。

02

漫画：什么是MapReduce？

MapReduce是一种编程模型，其理论来自Google公司发表的三篇论文（MapReduce，BigTable，GFS）之一，主要应用于海量数据的并行计算。

01

我是如何向老婆解释MapReduce的？

昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Fl

09

我是如何向老婆解释MapReduce的？

昨天，我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利，听众们都能够理解MapReduce的概念（根据他们的反馈）。我成功地向技术听众们（主要是Java程序员，一些Flex程序员和少数的测试人员）解释了MapReduce的概念，这让我感到兴奋。在所有辛勤的工作之后，我们在Xebia印度办公室享用了丰盛的晚餐，然后我径直回了家。

02

Hive-简介入门

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

02

Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.1 Hive 介绍）（草稿）

本文介绍了Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.1 Hive 介绍）（草稿），讲解了Hive的出现原因、架构、特点以及如何使用Hive进行大数据分析。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

重新解读 MapReduce

在没有 MapReduce 编程模型的时候，做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型，写过代码的都知道这种的开发模式肯定推广不开来，后续的开发和维护都特别麻烦，但是当时也没人想着要弄一个通用的编程模型，直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》，大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里，而且还能通用。

01

15种最佳方式帮你顺利掌握Hadoop技术

在探讨今天的主题——如何利用各类资源学习Hadoop知识——之前，让我们首先搞清楚另一个问题：大数据Hadoop到底是什么？简单来讲，Hadoop是一套用于实现大数据技术的框架方案。为了顺利掌握Hadoop，大家需要理解两项与文件存储以及数据处理紧密相关的基础知识。在 Hadoop当中，我们甚至可以保存比可用存储空间更大的文件。Hadoop提供相关选项，允许大家将大型文件存储在节点之上。很明显，处理规模如此可观的文件绝非儿戏，不过Hadoop能够引入“MapReduce”机制让一切变得更为简单。Map

07

YARN 内存参数终极详解转

Hadoop框架自身集成了很多第三方的JAR包库。Hadoop框架自身启动或者在运行用户的MapReduce等应用程序时，会优先查找Hadoop预置的JAR包。这样的话，当用户的应用程序使用的第三方库已经存在于Hadoop框架的预置目录，但是两者的版本不同时，Hadoop会优先为应用程序加载Hadoop自身预置的JAR包，这种情况的结果是往往会导致应用程序无法正常运行。

02

MapReduce 编程模型极简篇

0x00 前言回想自己最初学 Hadoop 的时候，初衷是写MapReduce程序，但是搭建单机环境折腾一周，搭建分布式环境折腾一周，跑个Demo解决一下Bug又一周过去了。最后都忘了自己是想学 MapReduce 的。感觉自己虽然是搞Hadoop的，但是写MR比自己想的要少很多。初期是花了很多精力在安装以及集群的各种日常维护，熟悉Hive后就经常用Hive来解决问题，然后逐渐地各种任务过度到了Spark上，因此对MapReduce的重视就少了很多。细想起来，MapReduce本身是很简洁易学的，因此

04

大数据要学哪些技术大数据工程师必备技能有哪些？

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

00

Reduce内存不足的解决方案

MapReduce作业运行时，任务可能会失败，报out of memory错误。这个时候可以采用以下几个过程调优

03

hadoop和spark的区别

学习hadoop已经有很长一段时间了，好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址，因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看（发行版DKhadoop，去大快的网站上应该可以下载到的。）

00

hadoop和spark的区别

学习hadoop已经有很长一段时间了，好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址，因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看（发行版大快DKhadoop，去大快的网站上应该可以下载到的。）

03

大数据-MapReduce基本介绍

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。

02

2021年大数据Hadoop（十六）：MapReduce计算模型介绍

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。

01

hadoop生态系统到底谁最强？

当你打开linkedin时，你会看到数百种不同的东西。例如，您的个人资料属性，您的朋友列表，您的技能，为您推荐的群组，朋友建议，为您推荐的公司，谁查看过您的个人资料等。

04

大数据的那些事(3):三驾马车之坑人的MapReduce

在Google的三驾马车里面，Google File System是永垂不朽的，也是基本上没有人去做什么进一步的研究的。BigTable是看不懂的，读起来需要很多时间精力。唯独MapReduce，是霓虹灯前面闪烁的星星，撕逼战斗的主角，众人追捧和喊打的对象。自从MapReduce这个词出来以后，不知道有多少篇论文发表出来，又不知道有多少口诛笔伐的文章。我曾经在HANA篇里写过围绕MapReduce，Google和Michael StoneBraker等等database的元老之间的论战。欢迎大家先读读这篇八

05

MapReduce快速入门系列(1) | 什么是MapReduce

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapReduce思想的体现。

02

大数据计算引擎：impala对比hive

Hive: 依赖于MapReduce执行框架，执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce，则会有更多的写中间结果。由于MapReduce执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。

02

用通俗易懂的大白话讲解Map/Reduce原理

Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等. 这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop： 1.什么是Map/Reduce，看下面的各种解释： (1)MapReduce是hadoop的核心组件之一，hadoop要分布式包括两

08

MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法

计数器是收集作业统计信息的有效手段之一，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到map 或reduce 任务，更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言，使用计数器更为方便。除了因为获取计数器值比输出日志更方便，还有根据计数器值统计特定事件的发生次数要比分析一堆日志文件容易得多。 hadoop内置计数器列表

01

大数据入门：Hive应用场景

在大数据的发展当中，大数据技术生态的组件，也在不断地拓展开来，而其中的Hive组件，作为Hadoop的数据仓库工具，可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享，就主要来讲讲，Hive应用场景。

04

yarn-site.xml 配置介绍

yarn-site.xml 配置介绍 yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb 说明：单个容器可申请的最小与最大内存，应用在运行申请内存时不能超过最大值，小于最小值则分配最小值，从这个角度看，最小值有点想操作系统中的页。最小值还有另外一种用途，计算一个节点的最大container数目注：这两个值一经设定不能动态改变(此处所说的动态改变是指应用运行时)。默认值：1024/8192 yarn.scheduler.minimum-allocation-vcores yarn.scheduler.maximum-allocation-vcores 参数解释：单个可申请的最小/最大虚拟CPU个数。比如设置为1和4，则运行MapRedce作业时，每个Task最少可申请1个虚拟CPU，最多可申请4个虚拟CPU。默认值：1/32 yarn.nodemanager.resource.memory-mb yarn.nodemanager.vmem-pmem-ratio 说明：每个节点可用的最大内存，RM中的两个值不应该超过此值。此数值可以用于计算container最大数目，即：用此值除以RM中的最小容器内存。虚拟内存率，是占task所用内存的百分比，默认值为2.1倍;注意：第一个参数是不可修改的，一旦设置，整个运行过程中不可动态修改，且该值的默认大小是8G，即使计算机内存不足8G也会按着8G内存来使用。默认值：8G /2.1 yarn.nodemanager.resource.cpu-vcores 参数解释：NodeManager总的可用虚拟CPU个数。默认值：8 AM内存配置相关参数，此处以MapReduce为例进行说明（这两个值是AM特性，应在mapred-site.xml中配置），如下： mapreduce.map.memory.mb mapreduce.reduce.memory.mb 说明：这两个参数指定用于MapReduce的两个任务（Map and Reduce task）的内存大小，其值应该在RM中的最大最小container之间。如果没有配置则通过如下简单公式获得： max(MIN_CONTAINER_SIZE, (Total Available RAM) / containers)) 一般的reduce应该是map的2倍。注：这两个值可以在应用启动时通过参数改变； AM中其它与内存相关的参数，还有JVM相关的参数，这些参数可以通过，如下选项配置： mapreduce.map.java.opts mapreduce.reduce.java.opts 说明：这两个参主要是为需要运行JVM程序（java、scala等）准备的，通过这两个设置可以向JVM中传递参数的，与内存有关的是，-Xmx，-Xms等选项。此数值大小，应该在AM中的map.mb和reduce.mb之间。我们对上面的内容进行下总结，当配置Yarn内存的时候主要是配置如下三个方面：每个Map和Reduce可用物理内存限制；对于每个任务的JVM对大小的限制；虚拟内存的限制；下面通过一个具体错误实例，进行内存相关说明，错误如下： Container[pid=41884,containerID=container_1405950053048_0016_01_000284] is running beyond virtual memory limits. Current usage: 314.6 MB of 2.9 GB physical memory used; 8.7 GB of 6.2 GB virtual memory used. Killing container. 配置如下：

01

浅谈分布式计算的开发与实现(一)

分布式计算简单来说，是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算，然后再进行结果汇总。目的在于分析计算海量的数据，从雷达监测的海量历史信号中分析异常信号(外星文明)，淘宝双十一实时计算各地区的消费习惯等。

02

【20】进大厂必须掌握的面试题-50个Hadoop面试

“大数据”是用于收集大型和复杂数据集的术语，这使得很难使用关系数据库管理工具或传统数据处理应用程序进行处理。很难捕获，整理，存储，搜索，共享，传输，分析和可视化大数据。大数据已成为公司的机遇。现在，他们可以成功地从数据中获取价值，并通过增强的业务决策能力在竞争者中拥有明显的优势。

01

浅谈分布式计算的开发与实现(一)

阅读目录: 介绍利用分片算法利用消息队列 Hadoop简介 MapReduce 离线计算介绍分布式计算简单来说，是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算，然后再进行结果汇总。目的在于分析计算海量的数据，从雷达监测的海量历史信号中分析异常信号(外星文明)，淘宝双十一实时计算各地区的消费习惯等。海量计算最开始的方案是提高单机计算性能，如大型机，后来由于数据的爆发式增长、单机性能却跟不上，才有分布式计算这种妥协方案。因为计算一旦拆分，问题会变得非常复杂，像一致性、数据完整、通信

07

Hive极简教程

一、HIVE架构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据

06

数仓工作的简单介绍和对比

参考：https://suncle.me/2018/04/16/Hadoop-MapReduce-HDFS-Introduction/

03

用故事说明什么是MapReduce与洋葱辣椒酱

我问妻子：“你真的想要弄懂什么是MapReduce？” 她很坚定的回答说“是的”。因此我问道：我：你是如何准备洋葱辣椒酱的？（以下并非准确食谱，请勿在家尝试）妻子：我会取一个洋葱，把它切碎，然后拌入盐和水，最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。妻子：但这和MapReduce有什么关系？我：你等一下。让我来编一个完整的情节，这样你肯定可以在15分钟内弄懂MapReduce. 妻子：好吧。我：现在，假设你想用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱。你会怎么做呢？妻子：

05

Kylin快速入门系列(3) | Cube构建原理

我们知道，一个N维的Cube，是由1个N维子立方体、N个(N-1)维子立方体、N*(N-1)/2个(N-2)维子立方体、…、N个1维子立方体和1个0维子立方体构成，总共有2^N个子立方体组成，在逐层算法中，按维度数逐层减少来计算，每个层级的计算（除了第一层，它是从原始数据聚合而来），是基于它上一层级的结果来计算的。比如，[Group by A, B]的结果，可以基于[Group by A, B, C]的结果，通过去掉C后聚合得来的；这样可以减少重复计算；当 0维度Cuboid计算出来的时候，整个Cube的计算也就完成了。每一轮的计算都是一个MapReduce任务，且串行执行；一个N维的Cube，至少需要N次MapReduce Job。过程如下：

04

那些必读的数据库领域论文

之前林仕鼎曾整理过系统架构领域的学习资料，这几天Spark核心团队成员辛湜（Reynold Xin）公开了他整理的一份数据库学习资料列表，Hacker News上引起了不少讨论。其中的评述文字也很有价值，简要编译如下。大家对这个列表如有补充，请评论。基础与算法 The Five-Minute Rule Ten Years Later, and Other Computer Storage Rules of Thumb (1997): 此文与十年前的原始论文解释了一个量化公式，用来计算数据页是否应该缓存在内

入门Hadoop的WordCount程序

本篇文章主要说两部分：简单介绍MapReduce的工作原理；详细解释WordCount程序。

02

Hadoop学习笔记—4.初识MapReduce

MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而MapReduce就是一种简化并行计算的编程模型，它使得那些没有多有多少并行计算经验的开发人员也可以开发并行应用程序。这也就是MapReduce的价值所在，通过简化编程模型，降低了开发并行应用的入门门槛。

02

大数据学习路线是什么，小白学大数据学习路线

大数据这个话题热度一直高居不下，不仅是国家政策的扶持，也是科技顺应时代的发展。想要学习大数据，我们该怎么做呢？大数据学习路线是什么？先带大家了解一下大数据的特征以及发展方向。

03

hadoop记录

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

大数据学习方向，从入门到精通

很多初学者在萌生向大数据方向发展的想法之后，不免产生一些疑问，应该怎样入门？应该学习哪些技术？学习路线又是什么？

03

每周学点大数据 | No.55分类算法——Naive Bayes

NO.55 分类算法——Naive Bayes 小可：说完了聚类，那么分类算法又是怎么做的呢？ Mr. 王：我们知道，分类是首先通过对训练集中大量数据的分析，训练出一个分类的模型或者说得出一个分类的标准，然后使用这个标准对后面再到来的数据进行分类。所以我们的大部分工作都集中在对训练集的处理上。这里介绍一种经典的分类算法——朴素贝叶斯分类器（Naive Bayes）。这种分类方法非常简单，但是非常有效。小可：我在学概率论时听说过贝叶斯定理，和这个是一个道理吗？ Mr. 王：朴素贝叶斯分类器依据的核心原理就是

05

python里的map和reduce

http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

03

Oozie快速入门系列(1) | Oozie的简单介绍及部署

Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

01

hadoop记录 - 乐享诚美

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

大数据架构师从入门到精通学习必看宝典

经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你

03

写给大数据开发初学者的话 | 附教程

公众号开了快一年了，名字叫学一学大数据。但是一直没有分享关于大数据的文章，如是就抽出时间来给大家分享下大数据整理的技术路线及生态全景。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存储：Had

04

Hadoop基本介绍

1、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS

08

孙荣辛｜大数据穿针引线进阶必看——带你盘点那些必知必会的Google经典大数据论文

大数据技术的发展是一个非常典型的技术工程的发展过程，荣辛通过对于谷歌经典论文的盘点，希望可以帮助工程师们看到技术的探索、选择过程，以及最终历史告诉我们什么是正确的选择。

05

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）

01

大数据初学者该如何快速入门？

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢？用不用参加大数据培训呢？如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。

06

Python 版 WordCount

前言本章介绍如何使用 Python 借助 Hadoop Streming 来完成 MapReduce 任务。其实 Hadoop Streming 很简单，但是我在网上搜索学习的时候，发现好多文章内容都是类似的，而且还有些晦涩难懂，故自己记录下完整的过程，以便能帮到更多学习的人。本次是基于 Hadoop 伪分布式环境搭建这篇文章中的环境来操作的。 Hadoop Streming Hadoop Streaming提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本

03

Hadoop框架

1、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS（Hadoop Distributed File System）来执行MapReduce程序的MapReduce引擎。（1）Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口；（2）Hive是基于Hadoop的一个工具，提供完整的SQL查询，

08

创新工场王咏刚：为什么 AI 工程师要懂一点架构？

AI 时代，我们总说做科研的 AI 科学家、研究员、算法工程师离产业应用太远，这其中的一个含义是说，搞机器学习算法的人，有时候会因为缺乏架构（Infrastructure）方面的知识、能力而难以将一个好的算法落地。我们招的算法工程师里，也有同学说，我发的顶会 paper 一级棒，或者我做 Kaggle 竞赛一级棒，拿了不少第一名的，不懂架构就不懂呗，我做出一流算法，自然有其他工程师帮我上线、运行、维护的。鉴于此，我给创新工场暑期深度学习训练营 DeeCamp （ps：这个训练营太火了，只招生 36 名，

07

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭