Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Kylin的技术框架

Kylin的技术框架

作者头像
程序狗
修改于 2021-03-22 06:20:06
修改于 2021-03-22 06:20:06
6200
举报
文章被收录于专栏:大数据知识大数据知识

kylin是一个MOLAP系统,通过预计算的方式缓存了所有 需要查询的的数据结果,需要大量的存储空间(原数据量的10+倍)。一般我们要分析的数据可能存储在关系数据库HDFS上数据、文本文件、excel 等。kylin主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。

kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求

如上图所示,Kylin从Hadoop Hive中获取数据,然后经过Cube Build Engine,将Hive中的数据Build成一个OLAP Cube保存在HBase中。用户执行SQL查询时,通过Query引擎,将SQL语句解析成OLAP Cube查询,然后将结果返回给用户。 组件:

  • 核心组件:Kylin的OLAP引擎框架包括元数据引擎、查询引擎、作业引擎、存储引擎以及用来处理客户端请求的REST服务器
  • 数据管理工具(Metadata Manager): Kylin是一款元数据驱动型应用程序。元数据管理工具是一大关键性组件,用于对保存在Kylin当中的所有元数据进行管理,其中包括最为重要的cube元数据。其它全部组件的正常运作都需以元数据管理工具为基础,包括cube的定义,星状模型的定义、job的信息、job的输出信息、维度的directory信 息等等,元数据和cube都存储在hbase中,存储的格式是json字符串,除此之外,还可以选择将元数据存储在本地文件系统
  • 任务引擎(Job Engine): 这套引擎的设计目的在于处理所有离线任务,其中包括shell脚本、Java API以及Map Reduce任务等等。任务引擎对Kylin当中的全部任务加以管理与协调,从而确保每一项任务都能得到切实执行并解决其间出现的故障
  • 存储引擎(Storage Engine): 这套引擎负责管理底层存储——特别是cuboid,其以键-值对的形式进行保存。存储引擎使用的是HBase——这是目前Hadoop生态系统当中最理想的键-值系统使用方案。Kylin还能够通过扩展实现对其它键-值系统的支持,例如Redis
  • REST Server: REST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。
  • ODBC驱动程序:为了支持第三方工具与应用程序——例如Tableau——我们构建起了一套ODBC驱动程序并对其进行了开源。我们的目标是让用户能够更为顺畅地采用这套Kylin平台
  • jdbc驱动程序:kylin提供了jdbc的驱动,驱动的classname为org.apache.kylin.jdbc.Driver,使用 的url的前缀jdbc:kylin:,使用jdbc接口的查询走的流程和使用RESTFul接口查询走的内部流程是相同的。这类接口也使得kylin很 好的兼容tebleau甚至mondrian。
  • 查询引擎(Query Engine):当cube准备就绪后,查询引擎就能够获取并解析用户查询。它随后会与系统中的其它组件进行交互,从而向用户返回对应的结果,kylin使用一个开源的Calcite框架实现SQL的解析,相当于SQL引擎层
  • Routing:该模块负责将解析SQL生成的执行计划转换成cube缓存的查询,cube是通过预计算缓存在hbase中,这部分查询是可以再秒级甚至 毫秒级完成,而还有一些操作使用过查询原始数据(存储在hadoop上通过hive上查询),这部分查询的延迟比较高。
  • Cube构建引擎:这个模块是所有模块的基础,它负责预计算创建cube,创建的过程是通过hive读取原始数据然后通过一些mapreduce计算生成Htable然后load到hbase中。

原文作者: 尚硅谷

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Apache Kylin原理与架构
Apache Kylin是一个开源的大数据分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目,是第一个由中国团队完整贡献到Apache的顶级项目。
用户5252199
2022/04/18
1.4K0
Apache Kylin原理与架构
Kylin基本原理及概念
“带你走进Apache Kylin的世界”
create17
2019/01/23
3K0
Kylin基本原理及概念
Kylin正式发布:面向大数据的终极OLAP引擎方案
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io)。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。 背景信息 eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化拓展而水涨船高。我们的用户——比如在分析与业务部门当中希望能在保持最低延迟水平的前提下继续使用自己所熟悉的工具方案,例如Ta
CSDN技术头条
2018/02/08
8830
Kylin正式发布:面向大数据的终极OLAP引擎方案
Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
  Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
不温卜火
2020/10/28
1.1K0
Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
快速学习-Kylin概述
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
cwl_java
2020/03/24
6500
Apache Kylin 历险记
Apache Kylin(麒麟)是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
sowhat1412
2022/09/20
6520
Apache Kylin 历险记
EMR(弹性MapReduce)入门之其他组件使用和排障(十二)
服务器启动时,Impalad与StateStore保持心跳。首先Impala节点会将自己节点的状态信息汇报给Statestore,Statestore实时监控impalad是否发生故障。然后Catalog与Hive进行通信,将Hive中Metastore中的元数据信息拉取到自己的字节上,然后以广播的形式发送给每个状态良好的Impalad节点上,使各个节点上的元数据保持一致。然后当客户端进行提交sql请求的时候,不会再向那个hive中进行MRjob了,而是直接作用在Impalad上,直接在impalad上生成执行计划数,进行快速查询。Impalad由于作用在HDFS上或者HBase上的,所以不许转换成MR job的sql请求时非常快的了。Query任务的执行直接是作用在HDFS上的。
小司机带你入门EMR
2020/02/13
1.1K0
Apache kylin 入门
本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。
用户1217611
2018/12/27
1.1K0
Kylin 是什么?
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Maynor
2022/03/28
7720
Kylin 是什么?
一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin
本文已收录于Github仓库:《大数据成神之路》 地址:https://github.com/wangzhiwubigdata/God-Of-BigData
王知无-import_bigdata
2021/02/05
9500
第一个“国产“Apache顶级项目——Kylin,了解一下!
不熟悉Apache软件基金会的朋友也不用担心,大家可以去Apache官网,下拉到最下边的页面,查看Apache有哪些开源项目。
大数据梦想家
2021/04/14
9880
第一个“国产“Apache顶级项目——Kylin,了解一下!
Apache Kylin VS Apache Doris全方位对比
本文作者:康凯森,来源于:https://blog.bcmeng.com,文章写的非常详细,从各个方面对Kylin和Doris进行了对比。
王知无-import_bigdata
2019/07/31
13.3K1
Apache Kylin VS Apache Doris全方位对比
Apache Kylin 在中通快递的实践
Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。
Spark学习技巧
2021/03/05
9240
Apache Kylin 在中通快递的实践
大数据OLAP系统(2)——开源组件篇
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:
Spark学习技巧
2020/12/28
2.5K0
大数据OLAP系统(2)——开源组件篇
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。
王知无-import_bigdata
2021/07/12
1.4K0
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
58HBase平台实践和应用-OLAP篇
Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Cube构建引擎及存储引擎等,同时包括REST服务器以响应客户端请求。
Spark学习技巧
2019/10/28
1.2K0
58HBase平台实践和应用-OLAP篇
Apache kylin概览
Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在hbase中,对外暴露JDBC、ODBC、Rest API的查询接口,即可实现实时查询。
用户1217611
2019/05/25
6630
【开发实践】美团为什么开发 Kylin On Druid(上)?
在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业,往往同时运行着 Kylin 和 Druid 两套系统,服务于不同的业务场景。
Spark学习技巧
2021/03/05
8050
【开发实践】美团为什么开发 Kylin On Druid(上)?
大厂的OLAP架构啥样的?
数据流程简单,数据处理流程简单,数据包括日志、DB log等,经Sqoop批量或Kafka实时接入大数据平台HDFS里,在大数据平台进行ETL后,通过大数据调度系统Ooize,每天定时写入到关系型数据库MySQL,再以MySQL中数据为基础产出各种报表。
JavaEdge
2024/05/25
1580
大厂的OLAP架构啥样的?
多角度带你认清Kylin的工作原理
在之前的博客中,博主已经为大家带来了Kylin的简单介绍,环境搭建以及简单入门使用。本篇博客,博主为大家带来的是关于Kylin工作原理的介绍!
大数据梦想家
2021/01/27
5320
多角度带你认清Kylin的工作原理
相关推荐
Apache Kylin原理与架构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档