【赵渝强老师】MapReduce计算模型原创

2024-08-082024-08-08 10:53:26播放355

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们将讨论一下mapreduce计算模型。Google在2004年的时候发表了名为map predu计算模型的论文，用于解决page rank的问题。这篇论文奠定了大数据分布式计算的理论基础。Map reduceduce通过拆分合并的方式可以解决大数据的离线计算问题。尽管在目前的大数据开发中，直接使用map reduceduce的场景比较少，但它对于我们理解Spark和flink的工作机制和原理非常重要。注意，Map reduceduce是一个离线计算模型，它与编程语言无关。在Hadoop体系中使用了Java实现mapreduce，而在mango DB中使用了javascript实现map reduceduce. 再说一遍，Map reduceduce本身与编程语言无关。最后说一遍，Map reduceduce本身与编程语言无关。重要的事情说了三遍，你记住了吗？下面通过一个具体的事例来说明map reducedu的处理机制，这里有一个大的计算任务，要对1~10的数字进行求和。假设一台服务器。
01:00
无法完成计算，那看看map reducece如何完成的吧。首先，Map reducece会将大任务拆分成若干个小任务，例如拆分后，1~4的求和是第一个小任务，5~7的求和是第二个小任务，8~10的求和是第三个小任务。只要任务足够小，那么这三个小任务就可以分别交给三台服务器进行计算。第一个小任务交给第一台服务器，计算的结果是10，第二个小任务交给第二台服务器，计算的结果是18，第三个小任务交给第三台服务器，计算的结果是27。但这并不是最终的结果，接下来需要将每个小任务的结果进行合并计算，最终得到结果55。这里的第一个拆分阶段叫做map，第二个合并阶段叫做reduce。这种先拆分在合并的处理方式就是map reduce的核心，而这种思想也被借鉴到了大数据计算引擎Spark和flink中。如果要在hadoop中开发Java程序，实现mapreduce，则需要开发两个类。
02:00
一个类实现map，另一个类实现reduce。现在你已经知道map reduce计算模型了，那你知道如何开发map reduce程序吗？欢迎评论区留言讨论好了，记得点加号关注赵玉强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（22/53）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4610

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3760

1分34秒

【赵渝强老师】Hive的内部表

3720

1分25秒

【赵渝强老师】Hive的外部表

3680

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3710

3分53秒

【赵渝强老师】数据仓库与大数据

9760

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3530

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3860

1分28秒

【赵渝强老师】Kafka的主题与分区

3500

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3650

2分14秒

【赵渝强老师】MapReduce计算模型

3550

2分33秒

【赵渝强老师】Hive的体系架构

3750

2分22秒

【赵渝强老师】HBase的表结构

3560

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3610

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3830

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3830

2分22秒

【赵渝强老师】数据湖的流批一体架构

3510

2分53秒

【赵渝强老师】HDFS数据上传的过程

3490

3分20秒

【赵渝强老师】Hadoop的本地模式

3800

2分43秒

【赵渝强老师】HDFS数据下载的过程

3650

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3420

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3580

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3720

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8370

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8110

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

2710

4分11秒

【赵渝强老师】大数据平台的Lambda架构

8620

3分41秒

【赵渝强老师】大数据平台的Kappa架构

1700

3分54秒

【赵渝强老师】Hadoop生态圈组件

840

【赵渝强老师】MapReduce计算模型原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐