第三代工具,比如Spark, Twister,HaLoop,Hama以及GraphLab。它们可以对大数据进行深度的分析。传统供应商最近的一些尝试包括SAS的内存分析,也属于这一类。...HaLoop(Bu等人,2010)也扩展了Hadoop来实现机器学习算法——它不仅为迭代式应用的表示提供了一层编程抽象,同时还使用了缓存的概念来 进行迭代间的数据共享,以及对定点进行校验,从而提高了效率...Twister( http://iterativemapreduce.org )是类似HaLoop的一个产品。 实时分析 实时分析是超越Hadoop考虑的第二个维度。
大数据计算模式方向 “ 由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop
第一个指出非循环数据流存在不足的并非是我们,例如,Google的Pregel[21],是一种专门用于迭代式图算法的编程模型;Twister[13]和HaLoop[8],是两种典型的迭代式MapReduce...此外,我们还在Spark之上实现了Pregel和HaLoop编程模型(包括其位置优化策略),以库的形式实现(分别使用了100和200行Scala代码)。...本文首先在第2部分介绍了RDD的概念,然后第3部分描述Spark API,第4部分解释如何使用RDD表示几种并行应用(包括Pregel和HaLoop),第5部分讨论Spark中RDD的表示方法以及任务调度器...在Pregel和HaLoop中,多次迭代之间采用一致性的分区置换策略进行优化,我们同样也允许用户指定这种优化。 (注: ?...4.3 使用RDD实现Pregel 略 4.4 使用RDD实现HaLoop 略 4.5 不适合使用RDD的应用 在2.1节我们讨论过,RDD适用于具有批量转换需求的应用,并且相同的操作作用于数据集的每一个元素上
giraph.apache.org/ 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel HaLoop...https://code.google.com/p/haloop/ 迭代的MapReduce Twister http://www.iterativemapreduce.org
HaLoop 也提供了迭代式 MapReduce 接口.然而, 这些框架仅仅支持一些特殊的计算模式(比如循环一系列的 MapReduce 步骤), 并且它们是隐式的为些计算模式提供数据共享....事实上, 我们分析表明 RDDs 不仅可以高效的表达出目前括 MapReduce, DryadLINQ, SQL, Pregel 以及 HaLoop 等系统提出的分布式编程模型, 而且还能表达它们表达不了的新的应用的计算模型...更重要的是, 为了彰显 RDDs 的普遍性, 我们基于spark 用相对较小的程序(每个包只有 200 行代码)实现了 Pregel 和 HaLoop 的编程模型, 包括它们使用的数据分布优化....我们在 spark 上用了 200 行代码的包实现了 Pregel , 读者可以参考第 33 个文献来了解更多的细节 迭代 MapReduce: 最近提出的几个系统, 包括 HaLoop 和 Twister...RDDs 可以很简单的表达以上两个优化, 而且我们基于 spark 花了 200 行代码实现了 HaLoop.
包括将中间结果放在内存中的迭代式图计算系统——Pregel,以及将多个 MR 串在一块,缓存循环不变量的 HaLoop。但这些系统只支持受限的计算模型(比如MR),而且只进行隐式[1]的数据复用。...初看起来,这种计算抽象很受限,但它其实能满足现有的一大类的集群计算需求,包括 MR、 DryadLINQ、 SQL、Pregel 和 HaLoop。并且能满足一些其他计算需求,比如说交互式计算。
三、HaLoop 简介:迭代的MapReduce,HaLoop——适用于迭代计算的Hadoop 。 ?...Hadoop与HaLoop的不同 与Hadoop比较的四点改变: 1.提供了一套新的编程接口,更加适用于迭代计算; HaLoop给迭代计算一个抽象的递归公式: ?...2.HaLoop的master进行job内的循环控制,直到迭代计算结束; 3.Task Scheduler也进行了修改,使得任务能够尽量满足data locality 4.slave nodes对数据进行...HaLoop官网>>> 四、Twister 简介:Twister, 迭代式MapReduce框架,Twister是由一个印度人开发的,其架构如下: ?
由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如 Hive )、批处理计算(如 HadoopMapReduce )、流式计算(如 Storm )、迭代计算(如 HaLoop
giraph.apache.org/ 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel HaLoop...https://code.google.com/p/haloop/ 迭代的MapReduce Apache Tez https://tez.apache.org
32 HaLoop 是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。
首先基于对Hadoop框架自身的改良,出现了haloop和dryad等变种平台,不过这些平台后来基本上都没有被大规模部署,其原因要么是改良效果不明显,要么是被跳出Hadoop框架重新设计的新平台所取代了
https://giraph.apache.org/ 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel HaLoop...https://code.google.com/p/haloop/ 迭代的MapReduce Twister http://www.iterativemapreduce.org/ 迭代的MapReduce
Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的PregelHaLoophttps://code.google.com/p/haloop
HaLoop 是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。
32、HaLoop 是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。
32、HaLoop 是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持迭代,递归数据的分析任务,如PageRank、HITs、K-means、sssp等。
领取专属 10元无门槛券
手把手带您无忧上云