为什么Hadoop MapReduce会在迭代算法的每次迭代中执行磁盘读写？

Hadoop MapReduce在迭代算法的每次迭代中执行磁盘读写的原因是为了实现数据的持久化和容错性。

迭代算法通常需要多次迭代处理大规模数据集，而Hadoop MapReduce是一种分布式计算框架，它将数据划分为多个块并分发到不同的计算节点上进行并行处理。在每次迭代中，MapReduce需要将数据从磁盘读取到内存中进行计算，并将计算结果写回磁盘以供下一次迭代使用。

执行磁盘读写的主要目的是为了数据的持久化。由于迭代算法可能需要多次迭代处理数据，将数据写入磁盘可以确保数据在迭代过程中不会丢失。同时，将计算结果写回磁盘也可以避免内存溢出的问题，因为大规模数据集可能无法完全加载到内存中进行计算。

此外，执行磁盘读写还可以提供容错性。在分布式计算环境中，计算节点可能会发生故障或网络中断等问题，导致计算中断。通过将数据写入磁盘，即使某个计算节点发生故障，数据仍然可以从磁盘中恢复，并在其他可用节点上继续进行计算，从而保证了计算的可靠性和容错性。

总结起来，Hadoop MapReduce在迭代算法的每次迭代中执行磁盘读写是为了实现数据的持久化和容错性，确保大规模数据集的处理过程中数据不丢失，并能够在计算节点故障时进行恢复和继续计算。

为什么Hadoop MapReduce会在迭代算法的每次迭代中执行磁盘读写？

、

我知道对于迭代算法，Hadoop mapreduce的性能并不好，因为它在每次迭代中都会执行完整的磁盘读/写操作。但是为什么呢？这是为了系统的健壮性吗？

浏览 10提问于2017-02-16得票数 1

回答已采纳

1回答

有没有一种正确的方法来衡量迭代算法的加速比？

、

我计划提高Hadoop MapReduce版本的雅可比方法算法的速度，以处理非常大的数据(20.000 ++方程)。据我所知，加速比指的是并行算法比相应的顺序算法快多少。我已经在hadoop mapreduce和顺序版本中实现了Jacobi方法。我目前的加速技术是比较mapreduce和顺序版本，包括重复执行mapre

浏览 3提问于2013-10-26得票数 0

1回答

Hadoop生态系统是什么? Apache是如何融入的？

我很难理解“Hadoop生态系统”在概念上到底是什么。我知道您有一些想要运行的数据处理任务，所以您可以使用MapReduce将作业分成更小的部分，但我不知道人们说'Hadoop生态系统‘是什么意思。我也不清楚Apache的好处是什么，为什么这被认为是革命性的？如果这都是内存中的计算，难道这不只是意味着您需要更高的RAM机器来运行火花作业吗？

浏览 2提问于2014-12-01得票数 0

1回答

这些任务中的哪一项将从火花中获益最大？

、、

我的公司处理数据(我只是一名实习生)。我们主要使用Hadoop。我们开始在生产中部署火花。目前我们有两份工作，我们只会选择一个从火花开始。第二项工作是用迭代的方法对某些数据进行机器学习和计算模型预测。火花依赖于记忆，所以我认为它更适合机器学习。与日志作业相比，数据量并不大。

浏览 0提问于2018-01-07得票数 0

回答已采纳

4回答

Hadoop的数据科学与MapReduce编程模型

、

使用mapreduce编程模型可以解决哪些不同类别的数据科学问题？

浏览 0提问于2014-07-28得票数 8

2回答

Apache Mahout和Apache Spark的MLlib有什么不同？

、、

考虑一个电子商务网站的包含1000万种产品的MySQL products数据库。这两个frameworks?Mainly，的区别是什么？各自的优势、缺点和局限性是什么？

浏览 78提问于2014-05-07得票数 56

回答已采纳

1回答

星火的地图和减少操作是不同于Hadoop减少的吗?如果是，那么怎么做？

、、

我正在浏览星火文件，发现了下面的一行1.请您帮助我理解星火图减少与hadoop地图减少有何不同吗？RDD是如何在火花中工作的？它总是像蜂巢一样将代码转换成mapreduce吗？

浏览 0提问于2018-11-14得票数 1

1回答

在eclipse中读取HDFS文件

、、、

我已经在hdfs中安装了hadoop插件，mapreduce程序有迭代，我想在每次迭代中读取eclipse.my中的一个文件。我是直接从hdfs读取文件，还是将文件复制到本地，然后再读取？他们中哪一个更有效率？谢谢。

浏览 1提问于2013-04-12得票数 0

回答已采纳

2回答

级联sinkmode.update无功

、

我刚刚开始级联编程，并有一个级联作业，需要运行可变的迭代次数。在每次迭代期间，它准备好从以前的迭代生成的文件(Tap)，并将计算出的数据写入两个单独的SinkTaps。一个Tap (Tap )用于从每次迭代中收集数据。 a

浏览 0提问于2014-08-22得票数 1

回答已采纳

1回答

apache是否适合实现adaboost alghoritm？

、、、、

我对在hadoop环境中实现adaboost算法感兴趣。我已经做了一些研究，因为缺乏本地的迭代支持，mapreduce可能会很慢。Apache是一个有趣的替代方案，但是apache是否有不允许有效实现adaboost的特性呢？

浏览 12提问于2014-03-27得票数 0

回答已采纳

1回答

C++11中的异步IO

、、、

我需要运行一些迭代算法，不知道它是否会在合理的时间内收敛到期望的精度。因此，如果我能够在每次迭代之后打印残差，并且一旦我感到满意/失去耐心，我可以告诉程序将当前的解决方案写到磁盘并终止，这将是很酷的。通常，为了实现这一点，程序必须在每次迭代之后询问它是否应该现在终止，而大多数时候我必须告诉它不要终止。这显然很烦人。我不能让程序运行直到我按下一个特定的键，

浏览 1提问于2014-11-05得票数 0

回答已采纳

3回答

hadoop上的Kmeans

、、、

每次迭代之后，Hadoop是否将一堆集群的输出存储到HDFS，并在下一次迭代中将它们取到内存中？谢谢

浏览 10提问于2012-09-26得票数 1

回答已采纳

1回答

Hadoop:维护迭代映射作业之间的内存缓存

、、、、

我想迭代地调用集群中的map-还原作业。在每次迭代中，映射器应该处理大约10000个庞大的记录。在每次迭代中，主节点用不同的参数调用那些映射器，但是输入记录保持不变。不需要每次调用映射器时加载这些记录；最好是通过迭代将它们缓存在主内存中，只需给出一个新的参数值。我计划使用运行Hadoop的AW

浏览 0提问于2013-09-18得票数 0

回答已采纳

1回答

绕过hadoop中Mapreduce作业的混洗阶段？

、、

我正在尝试实现一个算法，其中只需要一个reducer，并且mapreduce作业是迭代执行的。在特定迭代中，每个映射器的结果将被添加到reducer中，然后进行处理。然后，在其他迭代中，将归约器的输出作为输入传递给映射器。我希望以异步方式执行作业，即一旦执行了预定义数量的映射器，就将输出直接传递给reducer，即避免打乱和排序

浏览 0提问于2016-12-22得票数 2

1回答

MapReduce -使用hadoop配置对象读入文本文件

、

我是一个家庭作业，需要我用hadoop/mapreduce/java运行k-means算法。k-means算法的每次迭代都是一个MapReduce作业，问题涉及链接n个作业，其中n是我们选择运行的k-means算法的迭代次数。还建议我使用配置set()和get()方法-然后我可以为配置中的每个迭代设置文件名，

浏览 14提问于2017-02-05得票数 0

2回答

为什么Spark将Map阶段输出保存到本地磁盘？

、、

完成后，火花将映射任务(ShuffleMapTask)输出直接写入磁盘。 Hadoop、MapReduce和Spa

浏览 6提问于2016-02-18得票数 8

1回答

使用LoadIncrementalHFiles和子目录进行大容量加载

、、、

每次迭代都会创建自己的HFile目录，所以我的HDFS结构如下所示： ...这个map_data目录中有大约500个文件，因此我正在寻找一种自动调用LoadIncrementalHFiles函数的方法，以便在以后的迭代中处理这些子目录。相应的命令如下： hbase org.apache.hadoop

浏览 2提问于2017-09-25得票数 0

回答已采纳

1回答

论文" map -Reduce for Machine Learning on Multicore“展示了10种机器学习算法，它们可以从map reduce模型中受益。关键是“任何适合统计查询模型的算法都可以写成一定的求和形式”，并且算法可以表示为求和形式，可以应用map reduce编程模型。对于那些不能表示为求和形式的算法，并不意味着它们不能应用map reduce模型。谁能指出任何特定的机器学习算法，

浏览 1提问于2012-11-21得票数 6

回答已采纳

1回答

在Scala的数据科学上有明显的赢家吗？

我在Scala中找到了一些用于数据科学的库和工具，我想知道哪个库和工具被采用得更快，以及在多大程度上是这样的。基本上，我应该赌哪一个(如果在这一点上有)。我发现的一些工具(不按特定顺序排列)如下：微风马鞍尖顶Hadoop如果我需要更具体地回答这个问题:我现在对集群和大数据并不特别感兴趣，但我感兴趣的是用于信息集成和预测分析的大量数据

浏览 0提问于2014-08-08得票数 1

5回答

Apache和Hadoop的用例是什么？

、、、、

随着Hadoop2.0和纱，Hadoop被认为不再是唯一的地图还原解决方案。有了这一进步，考虑到HDFS顶部的两种情况，Apache的用例是什么？我已经阅读了Spark的介绍文档，但我很好奇是否有人遇到了比Hadoop更高效、更容易解决的问题。

浏览 0提问于2014-06-17得票数 34

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么Hadoop MapReduce会在迭代算法的每次迭代中执行磁盘读写？

相关·内容

为什么Hadoop MapReduce会在迭代算法的每次迭代中执行磁盘读写？

有没有一种正确的方法来衡量迭代算法的加速比？

Hadoop生态系统是什么? Apache是如何融入的？

这些任务中的哪一项将从火花中获益最大？

Hadoop的数据科学与MapReduce编程模型

Apache Mahout和Apache Spark的MLlib有什么不同？

星火的地图和减少操作是不同于Hadoop减少的吗?如果是，那么怎么做？

在eclipse中读取HDFS文件

级联sinkmode.update无功

apache是否适合实现adaboost alghoritm？

C++11中的异步IO

hadoop上的Kmeans

Hadoop:维护迭代映射作业之间的内存缓存

绕过hadoop中Mapreduce作业的混洗阶段？

MapReduce -使用hadoop配置对象读入文本文件

为什么Spark将Map阶段输出保存到本地磁盘？

使用LoadIncrementalHFiles和子目录进行大容量加载

无法应用map reduce模型的机器学习算法

在Scala的数据科学上有明显的赢家吗？

Apache和Hadoop的用例是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐