对于内存列存储来说,将所有原生数据类型的列采用原生数组来存储,将Hive支持的复杂数据类型(如array、map等)先序化后并接成一个字节数组来存储。...,性能会得到很大的提高,原因就是这些列的数据放在一起,更容易读入内存进行计算。...而这些操作细节都和Tree有关,在数据库解析(Parse)SQL语句的时候,会将SQL语句转换成一个树型结构来进行处理,如下面一个查询,会形成一个含有多个节点(TreeNode)的Tree,然后在后续的处理过程中对该...3、Spark SQL的代码实现---需要一个DataFream
DataFream是以指定列组织的分布式数据集合,相当于关系数据库中的一个表。...系统,DStream是源源不断的,当需要查Mysql数据库时,如果我们基于每个RDD,或基于分区建立mysql连接,那么需要经常建立、关闭数据库连接。