缺点:对于分析类sql,通常只需要关联一行中的几个列数据,行存会导致读取大量无关的列数据,IO浪费,CPU缓存失效......一文中在行式存储中模拟了列式范式设计:
通过将表结构垂直拆分以及全列建索引,就可以在查询时,只查询部分列对应的数据,从而加快分析速度。...无序且区分度不多
可以使用位图构造每个列取值出现的行位置,如:一列的数据为0,0,1,1,1,0,0,2,2,
则编码为 (0, 110001100)、(1, 001110000) 和 (2,000000011...如:AAAAABBCCCDDDDA --> A5B2C3D4A1,如果要以where col = 'C'过滤数据,平均计算复杂度等于总行数/列的基数,列基越大过滤越快(当然副作用是结果集很大);另外,如果输出的列数据是排过序的...这里的“隐式”是指,没有通过传统的join方式(两两表迭代,生成两个表联合在一起的宽行数据,再做过滤)来实现join,而是通过维持不同列的相同行之间的position对应关系来完成多个表join。