首页
学习
活动
专区
圈层
工具
发布

优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析

作者:RickyHuo 本文转载自公众号「大道至简bigdata」 原文链接:优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析 TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品...,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。...TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势。...直接使用 TiSpark 完成 OLAP 操作需要了解 Spark,还需要一些开发工作。那么,有没有一些开箱即用的工具能帮我们更快速地使用 TiSpark 在 TiDB 上完成 OLAP 分析呢?...目前开源社区上有一款工具 Waterdrop,可以基于 Spark,在 TiSpark 的基础上快速实现 TiDB 数据读取和 OLAP 分析。

1.1K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    OLAP 与 OLTP

    OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。...在OLAP系统中,常使用分区技术、并行技术: 【1】分区技术在OLAP系统中的重要性主要体现在数据库管理上,比如数据库加载,可以通过分区交换的方式实现,备份可以通过备份分区表空间实现,删除数据可以通过分区进行删除...但有时候对于OLAP系统,我们又有分页的情况下,我们可以考虑在每条SQL中用hint。...但是,在OLAP环境中,可能会因为其特有的特性,提高OLAP的查询速度。...3.OLAP系统的重点是通过数据提供决策支持,所以查询一般都是动态,自定义的。所以在OLAP中,维度的概念特别重要。一般会将用户所有关心的维度数据,存入对应数据平台。

    56210

    OLAP引擎

    时序型数据的实时OLAP分析:a.明细数据产生速率快b.原始数据量大,以简单(sum/count/min/max)为主,c.去重指标不多(1~2个)doris1、运维成本低,无外部依赖,部署简单。...多维过滤场景下性能较低2、同时负责数据导入, compaction, 查询, 这些操作之间会相互影响基于MPP高性能计算,提供灵活高的分析(主要依靠现场计算):a.明细查询b.主键更新的场景c.百毫秒的高性能灵活d.OLAP...二、行业情况调研公司业务特点引擎使用阿里查询场景丰富、规模大、服务内部也对外提供云服务自研OLAP引擎为主、基于MPP架构和自研存储系统支持需求闭源。...典型系统:Doris腾讯查询场景丰富、大业务线有自己的OLAP团队;开源和自研OLAP都有不同业务线采用、典型系统:Clickhouse、PivotEngine(广点通自研OLAP引擎)头条查询场景集中

    1.1K50

    TiDB 资源管控的对撞测试以及最佳实践架构

    本文将从业务角度切入,通过对不同类型业务(OLTP 和 OLAP)在资源管控下的表现进行详尽分析,探讨在动态发展模式下,如何优化TiDB 的资源管理策略。...)OLAP vs OLAP 是否存在相互影响情况,包括 业务层(TPS、QPS、duration)环境介绍最小化部署 3PD,3TiDB,3TiKVTiDB 节点:为了公平 PD 和 TiDB 为混合部署...是存算分离的分布式数据库,多种不同类别的 SQL 难免会集中到一个 tidb 的计算节点上,而数据库中我们分为 OLTP 类业务和 OLAP 类业务,在这里我想说明下这两种业务的区别OLTP 类的业务特点是短小的...OLTP 和 OLAP 在相同计算节点上执行时,OLAP 业务表现会有 20% 左右的衰减(不过感觉 AP 类业务多个几秒钟无所谓);如果 AP 和 TP 类 SQL 分别运行在不同的 TiDB 计算节点上时...OLAP vs OLAP:当 OLAP 和 OLAP 在相同计算节点上执行时,查询效率会有下降(实测中发现过原来 300s 跑出的语句,时间翻倍);从返回结果看 OLAP 的资源优先级在实测过程中 medium

    31410

    OLAP 是什么?一文讲清 OLAP 和 OLTP 的区别

    在数据处理领域,OLAP (联机分析处理) 和 OLTP (联机事务处理) 是两个非常关键又常常被对比的概念。那么,OLAP 到底指的是什么?它跟 OLTP 具体有哪些不同?...一、OLAP 基础概念解读1.OLAP 的定义说白了,OLAP 就是一种专门用来对大量历史数据进行多角度分析的技术。...四、OLAP 和 OLTP 的应用场景1.OLAP 的应用场景说白了,凡是要做深入分析、辅助决策的地方,就需要OLAP。零售业: 分析销售趋势(什么产品在哪儿卖得好?销售旺季是什么时候?)...用过来人的经验告诉你,没有OLTP持续产生准确的数据,OLAP就没有分析的基础;没有OLAP的深度分析,OLTP产生的数据价值就难以充分释放。...Q:企业实施 OLAP 和 OLTP 系统,最该注意什么?A:我重点强调几点:实施 OLAP:数据质量是基础。

    2.3K00

    读 TiDB 论文有感 | 数据强一致性且资源隔离的 HTAP 数据库

    和 OLAP 类型的请求开始力不从心,更坏的情况可能还会影响到 OLTP 类型的请求,所以针对 OLAP 场景设计了更符合其工作负载的 OLAP 类型数据库,通过将 OLTP 类型的数据同步到 OLAP...论文中,TiDB 选择的是方案 2,针对 OLTP 工作负载提供一个行存引擎 TiKV,针对 OLAP 工作负载负载提供一个列存引擎 TiFlash,那么数据强一致性和资源相互隔离怎么解决呢?...HTAP or (OLTP and OLAP) 到这里,TiDB 有了两个存储引擎:对 OLTP 友好的行存 TiKV,对 OLAP 友好的列存 TiFlash,其实这个不关键,关键的是这个两个存储引擎的数据同步是强一致性的...从单集群 TiDB 的角度来看,数据强一致性但资源相互隔离的 HTAP 是一个非常高效的能力,省去了数据从 OLTP 数据库同步到 OLAP 数据库的过程,也省去了将 OLAP 数据库计算结果需要提供在线业务使用时...不可能将整个公司的所有数据都放入一个 TiDB 集群中,那么虽然 TiDB 提供了 OLAP 能力,但是如果需要做 AP 操作的数据分布在多个集群中,这样依然需要将多个集群的数据从外部同步到一个提供 OLAP

    1.2K41

    什么是 OLAP?一文搞懂 OLAP 定义及特点

    接下来,咱就详细聊聊OLAP到底是怎么回事,它都有哪些真本事。​​一、OLAP基础概念解读​​​​1.OLAP的定义​​简单来说,OLAP就是一种专门用来“分析”数据的工具。...三、OLAP的四大看家本领​​说白了,OLAP能帮你把数据“掰开了、揉碎了”看透。​​甭管数据量多大、维度多杂,用好这四招,关键信息基本都能揪出来。​​...四、OLAP的三种实现方式,各有利弊​​​​1.MOLAP(多维OLAP)​​​​优点​​:查询飞快。数据提前按多维结构算好存着,查的时候直接拿结果。​​缺点​​:数据更新慢。...OLAP的“信息性”,核心就是​​把散装数据拧成一股绳​​,让你做判断时心里有底,而不是在“数据迷雾”里瞎撞。​​六、OLAP在企业里怎么用?...解法​​:用OLAP关联基站流量+时间段+用户套餐+地理位置,发现晚高峰商圈4G流量溢出,精准扩容或引导用户连WiFi。​​Q&A 常见问答​​​​Q:OLAP和数据挖掘有什么区别?​​

    71400

    别再分库分表了,试试TiDB!

    实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。...TiSpark TiSpark 作为 TiDB 中解决用户复杂 OLAP 需求的主要组件,将 Spark SQL 直接运行在 TiDB 存储层上,同时融合 TiKV 分布式集群的优势,并融入大数据社区生态...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步的烦恼。 TiFlash TiFlash 是一类特殊的存储节点。

    2.2K10

    TiDB学习笔记(三)

    and Analytical Process,混合事务和分析处理) 同时支持OLTP 和OLAP,支持实时分析。...TiDB-serer最大程序下推算法与Hash/Join关键算子提供了基础的AP能力 TiDB可以比喻成一个大号的Mysql, 最早TiDB是为了解决在线业务的分库分表问题,由于以下特性: 1....借助生态,让spark跑在Tikv上 但是TiDB的最初定位是面向OLTP的系统,针对OLAP,很容易造成OOM,所以引入了spark,分装为Ti-spark,缓解了数据中台算力的问题。...4.行列混合引擎,列式引擎提供实时写入能力 这时候OLTP的查询和TIspark用的同一套底层存储TiKv,OLTP和OLAP的资源在软件层面上很难实现隔离 物理隔离是最好的资源隔离 列存天然对OLAP...6.TiDB-servert统一技术服务 7.Mpp解决计算节点的扩展与并行计算 OLAP的场景里,经常会出现大表关联,之前的架构中join是无法下推的,引入了MPP计算框架 TiDB关键技术创新

    1.2K41

    别再分库分表了,来试试它吧!

    社区版和企业版 TIDB核心特性 水平弹性扩展 分布式事务支持 金融级高可用 实时 HTAP 云原生的分布式数据库 高度兼容 MySQL OLTP&OLAP(自学) OLTP(联机事务处理) OLAP(...实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步的烦恼。 TiFlash TiFlash 是一类特殊的存储节点。

    62320

    OLAP vs OLTP

    OLAP定义 OLAP 是 Online Analytical Processing system 的简称,是一个联机分析处理系统,主要目标是数据分析而不是数据处理。...OLAP 数据库存储的是 OLTP 输入的历史数据。可以允许用户查看不同纬度的数据。使用 OLAP,我们可以从大型数据库中提取信息并进行分析来做决策。...OLAP 还允许用户执行复杂的查询以提取多维数据。在 OLAP 中,即使事务在中间过程中失败,也不会损害数据完整性,因为用户使用 OLAP 系统只是从大型数据库中检索数据进行分析。...OLAP 中的事务很长,因此需要花费更多的时间以及更大的空间。与 OLTP 相比,OLAP 中的事务较少。甚至 OLAP 数据库中的表也可能不规范。...参考:Difference Between OLTP and OLAP

    2K20

    易观 OLAP 大赛揭晓 PingCAP 斩获商业组桂冠

    [1509352844507_8075_1509352846303.jpg] PingCAP 作为本次算法大赛商业组参赛队,借助 TiDB 的算法引擎,展现了强大的复杂 OLAP 处理能力。...作为 PingCAP 的核心产品 TiDB 受 Google/F1 启发,具备强大的水平扩展,强一致性的多副本数据安全,分布式事务,实时 OLAP 等特性。...作为 TiDB 项目中针对解决用户复杂 OLAP 需求的重要组件,TiSpark 将 Spark SQL 直接运行在 TiDB 存储层上,同时融合 TiKV 分布式集群的优势,并融入大数据社区生态。...至此,TiDB 可以通过一套系统,同时支持 OLTP 与 OLAP,免除用户数据同步烦恼。...TiDB 融合了 OLTP 与 OLAP 能力,将数据价值最大化,通过技术创新研发,为市场提供更好的技术解决方案,希望能够降低实时数据分析行业的门槛。

    1.4K00

    猿创征文|一文带你了解国产TiDB数据库

    实时 HTAP TiDB 作为典型的 OLTP 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP 无需传统繁琐的...TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。...OLAP(联机分析处理) OLAP(Online Analytical Processing) 即联机分析处理,是数据仓库的核心部心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。...TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server,此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件。 ​...TPC-H 是数据分析领域的一个测试集,TiDB 2.0 在 OLAP 场景下的性能有了大幅提升,原来只能在数据仓库里面跑的一些复杂的 Query,在 TiDB 2.0 里面跑,时间基本都能控制在 10

    1.4K30
    领券