在Hive/Spark/Presto等分布式SQL引擎中,给用户提供了多种手段用于控制数据的组织方式,比如下面的几个示例:
通过分区将不同分区的数据置于不同的子目录中,从而带有分区字段过滤的查询可以直接跳过不相干的分区目录...不同的数据组织方式,对于查询效率的影响是非常大的,也是数据库领域长久不衰的研究方向,限于篇幅和个人能力,本文的重点主要在于:如何在写入数据的时候,通过将数据合理的分布在不同的文件中,使得文件中查询过滤列数据的...分区存储的文件,可以在多个字段上都有比较好的Data Skipping效果。...6, 7], y取值是[8, 16, 24, 32, 40, 48, 56, 64], 计算出来的z-value排序结果实际上和数据按照Order By y, x排序的效果是一样的,这就使得在实际的使用场景中...”一节介绍的方式进行数据转换,但不是计算z-value,而是实现了一个特殊的Comparator用于顺序比较。