Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Batch、MPP、Cube 和 Hadoop

Batch、MPP、Cube 和 Hadoop

作者头像
Fred Liang
发布于 2018-12-27 09:16:58
发布于 2018-12-27 09:16:58
2.7K0
举报
文章被收录于专栏:Fred LiangFred Liang

Batch:批处理 MPP:大规模并行处理 Cube:多维立方体 Hadoop:是一款支持数据密集型分布式应用程序

Batch

只关注批处理任务相关的问题,如事务、并发、监控、执行等,并不提供相应的调度功能。因此,如果我们希望批处理任务定期执行,可结合 Quartz 等成熟的调度框架实现。

MPP

MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。

MPP数据库适合存储高密度价值数据,并且是长期存储和多次使用,所以MPP并行数据库会花大量经历在Load阶段,把数据处理成适合分析格式。带来的优点是查询速度快,通常在秒计甚至毫秒级以内就可以返回查询结果。缺点是不支持细粒度的容错,不支持高并发,集群数量扩展有上限,执行引擎和存储紧耦合导致数据难以被其他分析引擎进行分析。

Cube

cube是一个非常重要的概念,是多维立方体的简称,主要是用于支持联机分析应用(OLAP),为企业决策提供支持。Cube就像一个坐标系,每一个Dimension代表一个坐标系,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是Cube中的Cell。

Hadoop

原理更类似batch processing,更细粒度切分task,worker能者多劳(每个worker上执行的任务可以是不平均,不一致的)。单独worker看,性能不及MPP,但是胜在scalability优异,几百个节点是没问题的,在集群性上远胜MPP。

MPP VS Hadoop

原文:https://www.zhihu.com/question/27589901/answer/52144108

MPP和SQL on Hadoop的最大区别就在于,MPP架构是Full-SQL compatiable的,实现不局限于将Query分解为一连串的MR job去执行。并且由于每一列的数据类型进行了特定的压缩和编码(比如run-length/delta/bytecoding),能做的优化要比单纯的MapReduce多很多,效率自然也要高不少。相较于SQL on Hadoop,MPP更适合做interactive ad-hoc analysis,前者则更适用于对于海量数据做批处理或者需要使用UDF(自定义函数)的场景。在Scalability方面,MPP相较Hadoop类系统要差,依赖于定制硬件,而且没有可靠的开源实现。

SQL on Hadoop

SQL-on-Hadoop架构可以分为两类:

  • SQL over Processing Framework:例如SparkSQL,Drill/Datameer,Presto,Impala
  • OLAP over Hadoop:例如Kylin,Druid,AtScale,Kyvos

SQL over Processing Framework系统的共同特点是“Hadoop通用计算框架+SQL解析引擎”,存储层、执行引擎层、SQL解析层三者分离,可以方便替换执行引擎,对使用者而言,同一份数据可以采用不同并行执行引擎来分析。优点是灵活性高,支持细粒度容错,集群扩展性好,缺点是效率无法保证。

OLAP over Hadoop系统的共同特点是预计算,即数据都以时间序列的方式进入系统并经过数据预聚合和建立索引,因为是预计算,所以应对多维查询时速度非常快(计算时间复杂度O(1))且稳定,支持高并发,支持集群扩展。缺点是灵活性较差。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OLAP在线分析引擎介绍及应用场景
核心原理: 1. 多维数据模型: OLAP的核心是一个多维数据模型,通常体现为数据立方体(Data Cube)。数据立方体由维度(Dimensions)、层次(Levels)和度量(Measures)组成。维度代表分析的角度,如时间、地理位置或产品类型;层次则提供了维度内的粒度细化,如年、季度、月;度量是分析的具体数值,如销售额、利润等。 2. 预计算与缓存: 为了加快查询速度,OLAP引擎通常采用预计算(Precomputation)策略,通过预先计算并存储可能的查询结果(如聚合数据),减少实时计算负担。这包括使用技术如cube构建,其中汇总数据被提前计算并存储起来,以便快速响应查询。 3. MPP架构(Massively Parallel Processing): 许多现代OLAP引擎采用MPP架构,如Apache Kylin和ClickHouse,这种架构中,数据分布在多个节点上,每个节点独立处理自己的数据部分,然后汇总结果。MPP系统提供了水平扩展性,能够处理PB级别的数据集,并保持高性能。 4. 列式存储: 与传统的行式存储相比,OLAP引擎常采用列式存储,这种存储方式特别适合于数据分析场景,因为它可以显著加速涉及大量聚合操作的查询。列式存储减少了需要读取的数据量,并且可以更有效地利用CPU的向量化执行能力。 5. 向量化执行引擎: 一些OLAP引擎,如ClickHouse,采用了向量化执行引擎,这意味着它们会批量处理数据而不是逐行处理,从而提高了CPU的利用率和处理速度。SIMD(Single Instruction Multiple Data)指令集进一步优化了这种处理方式。 6. 索引与压缩: 为了提高数据访问速度,OLAP引擎使用高效的索引结构,如稀疏索引和B树,以及数据压缩技术,减少存储空间需求并加速数据检索过程。 7. 实时与近实时处理: 随着技术的发展,一些OLAP引擎如Apache Druid,专注于实时或近实时分析,能够在数据流入系统后几乎立即对其进行处理和分析,满足即时决策支持的需求。 OLAP引擎能够在大数据环境下提供快速、灵活的分析能力,支撑企业决策和业务洞察。
用户7353950
2024/06/04
4660
OLAP在线分析引擎介绍及应用场景
主流大数据OLAP框架对比
随着互联网、物联网、5G、人工智能、云计算等技术的不断发展,越来越多的数据在互联网上产生,对互联网的运营也开始进入精细化,因此大数据、数据分析、数字营销开始变成每个互联网企业的重点。在做数据分析时有OLAP、OLTP是我们必定会遇到的技术,在介绍OLAP引擎技术选型之前,我们先看看这两个技术分别是什么意思?
qihang
2024/03/16
2.3K0
主流的 OLAP 引擎介绍 - OLAP极简教程
随着互联网、物联网、5G、人工智能、云计算等技术的不断发展,越来越多的数据在互联网上产生,对互联网的运营也开始进入精细化,因此大数据、数据分析、数字营销开始变成每个互联网企业的重点。在做数据分析时有OLAP、OLTP是我们必定会遇到的技术,在介绍OLAP引擎技术选型之前,我们先看看这两个技术分别是什么意思?
一个会写诗的程序员
2021/12/24
9K0
主流的 OLAP 引擎介绍 - OLAP极简教程
关于OLAP和OLTP你想知道的一切
OLAP是英文Online Analytical Processing的缩写,中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术,用于从不同的角度进行数据挖掘和分析,以帮助用户快速发现数据之间的相关性和趋势。
用户1413827
2023/11/28
7.6K0
关于OLAP和OLTP你想知道的一切
常见开源OLAP技术架构对比
OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。可以比较下其与传统的OLTP(On-line Transaction Processing,联机事务处理)的区别来看一下它的特点:
shengjk1
2021/11/09
2.5K0
常见开源OLAP技术架构对比
OLAP数据库初探
OLAP的标准概念叫作“联机分析处理系统”,与之对应的是OLTP“联机事务处理系统”。OLTP对于事务性的要求非常高,常用于银行、证券等系统,但运行速度相对有限。有感于此,关系数据库之父Codd便在1993年提出了OLAP的概念,认为用户的很多决策需要依赖大量的计算与多维的分析才能解决,并作为一类单独的产品,与OLTP区分开来。
木东居士
2020/07/27
3.3K0
百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解
分析型系统进行联机数据分析,一般的数据来源是数据仓库,而数据仓库的数据来源为可操作型系统,可操作型 系统的数据来源于业务数据库中,那么我们常用的数据仓库的组成和架构一般如下图所示
Lansonli
2021/10/11
1.5K0
MPP大规模并行处理架构详解
这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。
五分钟学大数据
2021/04/02
6.6K0
大数据OLAP框架对比
以上是在大数据处理方面常用的四种技术原理, 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力, 但是其还是没有摆脱数据量和查询时间的线性关系。 于是在OLAP处理方式上, 我们多了一种:
solve
2020/03/20
4.1K0
数仓数据处理DB基本概念解析与理解 OLAP OLTP HATP 异同 MPP架构
学习数仓的时候,可能一开始总是被一些英文缩写名字迷惑,OLAP MPP架构 KAPPA架构 ODS等等,这篇文章就来梳理一下这些基本概念。
大鹅
2021/08/05
3.7K0
Kylin 大数据下的OLAP解决方案和行业典型应用
最近工作中应用到了 Kylin,因此调研了 Kylin的原理和行业应用。本文参考了官网和众多其他公司中 Kylin的应用案例,文末给出了出处,希望对大家有帮助。
数据社
2021/01/08
6910
Kylin 大数据下的OLAP解决方案和行业典型应用
Hadoop vs MPP
最近我听到了很多关于此话题的讨论。同样,这也是一个大数据领域经验不足的客户非常喜欢提问的问题。实际上,我不喜欢这个含糊不清的词语,但是通常客户会找到我们使用它们,因此我不得不使用。
smartsi
2019/11/27
4.3K0
Kylin 大数据下的OLAP解决方案和行业典型应用
最近工作中应用到了 Kylin,因此调研了 Kylin 的原理和行业应用。本文参考了官网和众多其他公司中 Kylin 的应用案例,希望对大家有帮助。
玄姐谈AGI
2021/01/11
1.4K0
Kylin 大数据下的OLAP解决方案和行业典型应用
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(一)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52231247
用户1148526
2019/05/25
1.6K0
大数据OLAP系统(2)——开源组件篇
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:
Spark学习技巧
2020/12/28
2.4K0
大数据OLAP系统(2)——开源组件篇
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)
在上一章节《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(上)》,我们讲到实时数仓的建设,互联网大数据技术发展到今天,各个领域基本已经成熟,有各式各样的解决方案可以供我们选择。
王知无-import_bigdata
2019/09/16
1.8K0
选择适合你的开源 OLAP 引擎
摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。
大数据学习指南
2022/05/26
1.7K0
选择适合你的开源 OLAP 引擎
系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)
☞ 03.OLAP引擎 [ Kylin Druid Presto Impala Kudu ADB ES .. ]
Spark学习技巧
2019/10/08
2.6K0
系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)
大数据Doris(一):Doris概述篇
Doris由百度大数据部研发,之前叫百度Palo,于2017年开源,2018年贡献到 Apache 社区后,更名为Doris。
Lansonli
2023/12/28
27.2K0
大数据Doris(一):Doris概述篇
一篇文章搞懂数据仓库:数据应用--OLAP
数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html
不吃西红柿
2022/07/29
1.3K0
一篇文章搞懂数据仓库:数据应用--OLAP
推荐阅读
相关推荐
OLAP在线分析引擎介绍及应用场景
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档