首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

对同一reduce任务的两次尝试是否应该继续并行运行?

对同一reduce任务的两次尝试是否应该继续并行运行,取决于具体的情况和需求。以下是一些可能的情况和建议:

  1. 如果两次尝试是基于相同的输入数据和相同的计算逻辑,那么继续并行运行可能没有意义。在这种情况下,可以选择终止其中一个尝试,以避免资源浪费。
  2. 如果两次尝试是基于不同的输入数据或稍有不同的计算逻辑,那么继续并行运行可能是有意义的。这样可以比较两次尝试的结果,找出更好的计算结果或验证不同的算法。
  3. 在某些情况下,即使两次尝试是基于相同的输入数据和计算逻辑,也可能需要继续并行运行。这可能是因为系统中存在不稳定的因素,例如网络延迟或资源竞争,导致两次尝试的运行时间不同。在这种情况下,可以通过并行运行来提高任务的整体执行效率。

总之,对同一reduce任务的两次尝试是否应该继续并行运行,需要根据具体情况进行评估和决策。在实际应用中,可以根据任务的性质、数据的特点、系统的资源情况等因素来确定是否继续并行运行。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • Hadoop-2.4.1学习之Mapper和Reducer

    MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序,确保程序的运行稳定可靠和具有容错处理能力。程序员编写的运行在MapReduce上的应用程序称为作业(job),Hadoop既支持用Java编写的job,也支持其它语言编写的作业,比如Hadoop Streaming(shell、python)和Hadoop Pipes(c++)。Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件,但这并不意味着Hadoop-2.X不再支持MapReduce作业,相反Hadoop-2.X通过唯一的主ResourceManager、每个节点一个的从NodeManager和每个应用程序一个的MRAppMaster保留了对MapReduce作业的向后兼容。在新版本中MapReduce作业依然由Map和Reduce任务组成,Map依然接收由MapReduce框架将输入数据分割为数据块,然后Map任务以完全并行的方式处理这些数据块,接着MapReduce框架对Map任务的输出进行排序,并将结果做为Reduce任务的输入,最后由Reduce任务输出最终的结果,在整个执行过程中MapReduce框架负责任务的调度,监控和重新执行失败的任务等。

    02

    Hadoop学习笔记—1.基本介绍与环境配置

    说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google File System),从此文件系统进入分布式时代。除此之外,Google在GFS上如何快速分析和处理数据方面开创了MapReduce并行计算框架,让以往的高端服务器计算变为廉价的x86集群计算,也让许多互联网公司能够从IOE(IBM小型机、Oracle数据库以及EMC存储)中解脱出来,例如:淘宝早就开始了去IOE化的道路。然而,Google之所以伟大就在于独享技术不如共享技术,在2002-2004年间以三大论文的发布向世界推送了其云计算的核心组成部分GFS、MapReduce以及BigTable。Google虽然没有将其核心技术开源,但是这三篇论文已经向开源社区的大牛们指明了方向,一位大牛:Doug Cutting使用Java语言对Google的云计算核心技术(主要是GFS和MapReduce)做了开源的实现。后来,Apache基金会整合Doug Cutting以及其他IT公司(如Facebook等)的贡献成果,开发并推出了Hadoop生态系统。Hadoop是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。

    01
    领券