首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >行存储(关系型数据库)与列存储(hbase,es聚合的doc_value)[通俗易懂]

行存储(关系型数据库)与列存储(hbase,es聚合的doc_value)[通俗易懂]

作者头像
全栈程序员站长
发布2022-09-14 17:53:23
发布2022-09-14 17:53:23
2.1K0
举报

大家好,又见面了,我是你们的朋友全栈君。

1.为什么要按列存储

列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表

Ø Row-based storage stores atable in a sequence of rows.

Ø Column-based storage storesa table in a sequence of columns.

行式存储下一张表的数据都是放在一起的,但列式存储下都被分开保存了

行式存储

列式存储

优点

Ø 数据被保存在一起 Ø INSERT/UPDATE容易

Ø 查询时只有涉及到的列会被读取 Ø 投影(projection)很高效 Ø 任何列都能作为索引

缺点

Ø 选择(Selection)时即使只涉及某几列,所有数据也都会被读取

Ø 选择完成时,被选择的列要重新组装 Ø INSERT/UPDATE比较麻烦

ps:列式数据库方便projection SQL Projection is the collective name for the columns that are Selected and returned from a query. In other words, the columns goes behind select in a query. In Oracle, a whole row is first fetched, then data values from the columns within that row are extracted into the known projection.

select某个字段就是projection。

注:关系型数据库理论回顾 – 选择(Selection)和投影(Projection)

数据压缩:通过字典表压缩数据

下面才是那张表本来的样子。经过字典表进行数据压缩后,表中的字符串才都变成数字了。正因为每个字符串字典表里只出现一次了,所以达到了压缩的目的(有点像规范化和非规范化Normalize和Denomalize)

查询执行性能

通过一条查询的执行过程说明列式存储(以及数据压缩)的优点:

关键步骤如下:

1. 去字典表里找到字符串对应数字(只进行一次字符串比较)。

2. 用数字去列表里匹配,匹配上的位置设为1

3. 把不同列的匹配结果进行位运算得到符合所有条件的记录下标。

4. 使用这个下标组装出最终的结果集

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/159119.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年7月1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.为什么要按列存储
  • 数据压缩:通过字典表压缩数据
  • 查询执行性能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档