前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ClickHouse中分区(Partition)和分片(Shard)概念入门

ClickHouse中分区(Partition)和分片(Shard)概念入门

作者头像
IT大咖说
发布2022-03-04 13:10:17
11.8K0
发布2022-03-04 13:10:17
举报
文章被收录于专栏:IT大咖说IT大咖说

ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。适合巨量数据环境下用户数据查询、数据分析等工作。ClickHouse 简称为 CH,是近几年日益火起来的一款类数据库分析工具。

2020年至今,ClickHouse就是一批黑马,成功脱颖而出,在各大互联网公司都受到青睐。

◆ 一、表分区(Partition)概念

表中的数据可以按照指定的字段分区存储,每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段,数据量大的表可以按照小时分区,数据量小的表可以在按照天分区或者月分区,查询时,使用分区字段作为Where条件,可以有效的过滤掉大量非结果集数据。 

ClickHouse 分区的目的是为了尽可能地减少读取的数据量,那么它有哪些特点呢?

  • 创建分区的方法比较简单,只需要在建表时通过partition by语法指定即可;
  • 不止可以按某个字段做partition by,还可以支持按任意合法的表达式进行分区操作,比如toYYYYMM()按月做分区;
  • 支持对partition进行TTL管理,淘汰过期的分区数据;
  • 插入数据到分区表中时,先会将数据写入到分区目录下的segment文件中,后台程序会自动进行合并,当然也可以通过optimize命令手动触发合并。

在ClickHouse中有专门一张表对partition进行管理,那就是system.parts。

select database,table,partition,name,path,engine from system.parts WHERE table = 'ontime';

常见的一些字段说明:

  • database:数据库名称
  • table:表名
  • partition:分区键
  • name:分区名称
  • path:分区对应的目录
  • disk_name:分区所在的磁盘
  • engine:该数据表的引擎

◆ 二、分片(Shard)概念

一个分片本身就是ClickHouse一个实例节点,分片的本质就是为了提高查询效率,将一份全量的数据分成多份(片),从而降低单节点的数据扫描数量,提高查询性能。

上图中,除了分片(Shard)之外,还同时引入了副本(Replica)概念。

副本(Replica)简单理解就是相同的数据备份,在ClickHouse中通过复制集,我们实现了保障数据可靠性外,也通过多副本的方式,增加了ClickHouse查询的并发能力。这里一般有2种方式:1.基于ZooKeeper的表复制方式;2.基于Cluster的复制方式。由于我们推荐的数据写入方式本地表写入,禁止分布式表写入,所以我们的复制表只考虑ZooKeeper的表复制方案。

在集群配置中,Shard标签里面配置的replica互为副本,将internal_replication设置成true,此时写入同一个Shard内的任意一个节点的本地表,ZooKeeper会自动异步的将数据同步到互为副本的另一个节点。

来源:

https://www.toutiao.com/a7057403184083436063/?log_from=7c0724ff356c8_1644390274682

“IT大咖说”欢迎广大技术人员投稿,投稿邮箱:aliang@itdks.com

来都来了,走啥走,留个言呗~

 IT大咖说  |  关于版权

由“IT大咖说(ID:itdakashuo)”原创的文章,转载时请注明作者、出处及微信公众号。投稿、约稿、转载请加微信:ITDKS10(备注:投稿),茉莉小姐姐会及时与您联系!

感谢您对IT大咖说的热心支持!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT大咖说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ◆ 一、表分区(Partition)概念
  • ◆ 二、分片(Shard)概念
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档