Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Spark Join 源码剖析①

Spark Join 源码剖析①

作者头像
codingforfun
发布于 2022-05-23 03:06:09
发布于 2022-05-23 03:06:09
8440
举报

一、Join 逻辑计划生成

和 Join 相关的逻辑层的优化规则主要包含以下几种:

ReorderJoin

EliminateOuterJoin

👍🏻DPP 动态分区裁剪

以及

👍🏻PushDownPredicates

中和 Join 相关的 predicate pushDown

二、Join 物理计划生成和选取

2.1、基本概念

Spark SQL 中,参与 Join 操作的两张表分别被称为流式表(StreamTable)和构件表(BuildTable),不同表的角色在 Spark SQL 中会通过一定的策略进行设定。通常来讲,系统会将大表设置为 StreamTable,小表设置为 BuildTable。流式表的迭代器为 streamIter,构建表的迭代器为 buildIter。遍历 streamIter 的每一条记录,然后在 buildIter 中查找匹配的记录。这个查找过程称为 build 过程。每次 build 操作的结果为一条 JoinedRow(A, B),其中 A 来自 streamedIter,B 来自 buildIter。

再例如,在 BroadcastHashJoin 中需要决定广播哪个数据表。这里的 BuildSide 可以简单理解为 “构建的一边”。

在 Spark 中,BuildSide 作为一个抽象类,包含 BuildLeft 和 BuildRight 两个子类,一般在构造 Join 的执行算子时,都会传入一个 BuildSide 的构造参数。在 JoinSelection 中通过 canBuildRightcanBuildLeft 判断一个 Join 类型能否 “构建” 右表和左表。

2.2、物理计划选取顺序

Join 物理执行计划的选取在 JoinSelection 中进行,其主要逻辑如下:

如果是一个等值 join(equi-join)且包含 join hint,我们依次查看 join hint:

  1. broadcast hint:如果 join 类型支持,使用 broadcast hash join。如果 left 和 right 都有 broadcast hint,选择 size 较小的一侧(基于统计数据)进行 broadcast
  2. sort merge hint:如果 join keys 是可排序的,使用 sort merge join。
  3. shuffle hash hint:如果 join 类型支持,如果 left 和 right 都设置了 shuffle hash hints,选择 size 较小的一侧作为 build side
  4. shuffle replicate NL hint:如果 join type 为 inner like,使用 cartesian product join(笛卡尔积)

JoinSelection 通过 ExtractEquiJoinKeys 来判断是否为等值 Join 并提取相关信息:

如果没有指定 hint 或 hint 不适用,Join 选择顺序如下:

  1. 尝试选用 broadcast hash join:如果 join 类型支持,且 join 的一侧 size 足够小能够 broadcast。如果都足够小,选择更小的一侧进行 broadcast(基于统计数据)
  2. 尝试选用 shuffle hash join:如果 join 类型支持,且 join 的一侧 size 足够小能够构建 local hash map,且该侧 size 显著小于另一侧,且 spark.sql.join.preferSortMergeJoin 为 false
  3. 尝试选用 sort merge join:如果 join keys 是可排序的
  4. 尝试选用笛卡尔积:如果是 inner like join
  5. 尝试选用 broadcast nested loop join:最后的兜底手段,可能会 OOM,如果这里 OOM 了,也没办法了

2.3、等值 Join 情况

注①:

createJoinWithoutHint 如下:

2.4、非等值 Join 情况

三、Join 物理计划执行

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Spark SQL是如何选择join策略的?
我们都知道,Spark SQL上主要有三种实现join的策略,分别是Broadcast hash join、Shuffle hash join、Sort merge join。那Catalyst是依据什么样的规则来选择join策略的?本文来简单补个漏。
王知无-import_bigdata
2020/05/07
2.8K0
SparkSQL 如何选择 join 策略
Join 操作是大数据分析领域必不可少的操作,本文将从原理层面介绍 SparkSQL 支持的五大连接策略及其应用场景。
kk大数据
2024/02/28
4440
SparkSQL 如何选择 join 策略
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
Spark是目前最流行的分布式大数据批处理框架,使用Spark可以轻易地实现上百G甚至T级别数据的SQL运算,例如单行特征计算或者多表的Join拼接。
代码医生工作室
2021/09/29
1.1K0
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
探究Presto SQL引擎(2)-浅析Join
在《探究Presto SQL引擎(1)-巧用Antlr》中,我们介绍了Antlr的基本用法以及如何使用Antlr4实现解析SQL查询CSV数据,更加深入理解Presto查询引擎支持的SQL语法以及实现思路。
2020labs小助手
2022/04/18
9120
Hive优化器原理与源码解析系列--统计信息中间结果大小计算
之前文章有写过关于基于Operator操作符Selectivity选择率和Predicate谓词的Selectivity选择率的讲解。这篇文章来讲一下基于每个Operator(TableScan、Project、Join、Union、Sort、Aggregate等等)返回记录数RowCount,即中间结果大小。Hive在估算每个Operator的返回结果RowCount,即中间结果大小,有的是使用元数据对象来进行估算的RowCount;有的使用RelNode自身实现方法估算的;有的是总行数乘以其选择率估算的等多种方法实现。
用户7600169
2022/04/25
9050
Hive优化器原理与源码解析系列--统计信息中间结果大小计算
大数据 Shuffle 原理与实践 | 青训营笔记
MapReduce是一个分布式运算程序的编程框架,是用户开发”基于hadoop的数据分析应用“的核心框架。
鳄鱼儿
2024/05/21
2700
大数据 Shuffle 原理与实践 | 青训营笔记
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
【前言:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢?(以下不考虑业务需求确实需要笛卡尔积的场景)】
大数据学习与分享
2020/08/10
2.3K0
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
自己工作中超全spark性能优化总结
Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。
guichen1013
2020/11/25
1.9K0
自己工作中超全spark性能优化总结
【Spark重点难点06】SparkSQL YYDS(中)!
在上节课中我们讲解了Spark SQL的来源,Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten,以及Spark SQL的Join策略选择。
王知无-import_bigdata
2021/12/16
7310
【Spark重点难点06】SparkSQL YYDS(中)!
Spark join种类(>3种)及join选择依据
join是作为业务开发绕不开的SQL话题,无论是传统的数据库join,还是大数据里的join。
Spark学习技巧
2021/03/05
1K0
Spark join种类(>3种)及join选择依据
SparkSQL的3种Join实现
Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。
王知无-import_bigdata
2019/07/09
3.5K0
SparkSQL的3种Join实现
Spark SQL如何选择join策略
众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执行计划,在一定程度上决定了SQL执行的性能。
大数据学习与分享
2020/08/10
1.2K0
Spark难点 | Join的实现原理
当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前两者归根到底都属于Hash Join,只不过载Hash Join之前需要先Shuffle还是先Broadcast。其实,Hash Join算法来自于传统数据库,而Shuffle和Broadcast是大数据在分布式情况下的概念,两者结合的产物。因此可以说,大数据的根就是传统数据库。Hash Join是内核。
王知无-import_bigdata
2019/11/18
1.6K0
Spark SQL 性能优化再进一步 CBO 基于代价的优化
上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。
Jason Guo
2018/10/09
1.2K0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。
大数据真好玩
2021/09/18
2.4K0
【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇
Spark SQL 性能优化再进一步 CBO 基于代价的优化
上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。
Jason Guo
2018/10/10
9110
Spark SQL 性能优化再进一步 CBO 基于代价的优化
五万字 | Spark吐血整理,学习与面试收藏这篇就够了!
一、Spark 基础 二、Spark Core 三、Spark SQL 四、Spark Streaming 五、Structured Streaming 六、Spark 两种核心 Shuffle 七、Spark 底层执行原理 八、Spark 数据倾斜 九、Spark 性能调优 十、Spark 故障排除 十一、Spark大厂面试真题
五分钟学大数据
2021/09/22
4.3K0
Spark Adaptive Execution调研
本文阅读价值不错建议大家仔细阅读,感谢作者疯狂哈秋,转自:https://blog.csdn.net/u013332124/article/details/90677676
Spark学习技巧
2019/07/15
1.9K0
Spark Adaptive Execution调研
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据
Jason Guo
2018/06/11
2.2K0
数据查询太慢?这个Doris JOIN秘笈让你的SQL提速千百倍!
数据分析师小张最近遇到了一个棘手的问题。他正在处理一个大规模数据分析任务,需要对几张超大表进行关联分析。起初他用了最常规的JOIN方式,结果查询速度慢得令人发指,一个查询要跑好几个小时。这可让他犯了难 - 老板要的报表迟迟出不来,催得他焦头烂额。
一臻数据
2024/12/24
2000
数据查询太慢?这个Doris JOIN秘笈让你的SQL提速千百倍!
推荐阅读
相关推荐
Spark SQL是如何选择join策略的?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文