Byzer 语句执行原理解析

用户2936994

发布于 2022-07-21 06:13:35

52000

代码可运行

文章被收录于专栏：祝威廉祝威廉

运行总次数：0

代码可运行

Byzer 语句执行原理解析

load excel.`./example-data/excel/hello_world.xlsx` 
where header="true" 
as hello_world;

select hello from hello_world as output;

Byzer 是按下面的方式执行的：

预处理阶段，主要是加载 include 的脚本，展开宏函数， evaluate 变量（例子中没有体现）
按行执行阶段，在上面的例子中，会按顺序分别执行 load/select 两条语句。

在执行一条语句的时候，系统会做两件事情：

解析和翻译语句，将其转化为可以被 Runtime 执行的 AST 树，然后存储到当前用户独占的catalog中。这个过程是很快的，因为没有涉及到实际数据的操作
判断是否要真的执行数据计算

判断条件有三个：

语句是 save 语句
train/run 语句中的一部分，比如算法类的，都是会触发执行的，而其他大部分则不会。
load/select 等语句是脚本中的最后一行

所以根据前面的描述，Byzer 在执行第一条 load 语句的时候，此时情况是：

解析和翻译成AST, 并且暂存相关信息到用户独占的 catalog 里。
因为不符合前面的三个判断条件，所以并不会真实执行数据加载操作

接着 Byzer 执行第二条 select 语句，此时情况是：

解析和翻译成 AST, 并且发现依赖了表 hello_world，去 catalog 查找该表的AST，然后重组成一个新的AST，然后也保存到用户独占的 catalog 中。
符合判断条件的第三个，需要执行实际的数据，展示给用户看。

这个时候 Byzer 会将重组后的 AST 提交给 Runtime 执行数据计算。

从上面的逻辑我们可以得出如下几个结论：

第一条语句在执行的时候，并没有触发实际数据计算，也不会将数据加载到内存里。
第二条语句会将第一条语句的 AST 集合起来，一并提交给 Runtime 执行。
尽管 Byzer 执行了两条语句，但这两条语句其实被当做了一个 AST 来执行, 等价于一条 SQL，性能也和一条 SQL 是差不多的。

对于如下代码：

load excel.`./example-data/excel/hello_world.xlsx` 
where header="true" 
as hello_world;

select hello from hello_world where name="yes" as table1;

select * from table1 as output;

当我们将他们放在 notebook 里的三个 Cell 中，然后分别执行，当我们再执行第三条语句的时候

第三条语句会将第二条和第一条的 AST 都集成过来，然后形成一个新的AST 来执行。可以简单理解为三条语句被合并成了一条语句来执行。
不会因为第一条语句，第二条语句执行过了，第三条语句执行就会变快。

对于如下代码：

load excel.`./example-data/excel/hello_world.xlsx` 
where header="true" 
as hello_world;

select hello from hello_world where name="yes" as table1;

select * from hello_world as output;

第三条语句只依赖第一条语句产生的表，所以第三条语句会查找到第一条语句的 AST 然后重组成新的 AST 来执行。第二条语句则仅仅生成 AST，但不会参与到最后的计算。

那如何让第三条语句变快呢？那就是执行 save 动作，切断查找依赖：

Notebook Cell 1:

load excel.`./example-data/excel/hello_world.xlsx` 
where header="true" 
as hello_world;

select hello from hello_world where name="yes" as table1;

save overwrite table1 as parquet.`/tmp/table1`;
load parquet.`/tmp/table1` as table2;