重磅来袭：腾讯云ClickHouse支持数据均衡服务

原创

fastio

修改于 2021-04-29 19:31:19

3.4K0

文章被收录于专栏：云数据仓库 ClickHouse云数据仓库 ClickHouse

1. 前言

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源，以优秀的查询性能，深受广大大数据工程师欢迎。为了服务客户业务，腾讯云于2020年4月正式上线ClickHouse服务。

服务上线以来，迅速获得内外客户广泛支持，服务业务数量成规模增长。运维与管控压力也随之而来，用户对弹性伸缩能力的呼声越来越大。事实上，ClickHouse是典型的Share-Nothing架构，天然支持弹性伸缩能力。无论是增加节点数量，还是增加数据分片副本数量都非常容易。

图1 ClickHouse Share-Nothing 架构

但是，ClickHouse集群在增加节点后，集群上的数据集无法自动均衡分布。需要人工干预，确保数据均衡。同理，下线集群节点前，也需要人工干预，将被下线节点的机器迁移到其他节点。在生产环境中，运维工作强度随着集群中表的数量，数据规模增加而急剧增强。为了缓解云上ClickHouse用户运维压力，将ClickHouse数据均衡运维工作自动化是非常有价值的。

本文将带领读者了解腾讯云ClickHouse如何实现无人值守的数据均衡服务。

2. ClickHouse集群数据均衡功能缺失

在生产环境中，通常ClickHouse通常以集群模式部署。在ClickHouse集群中，用户根据业务需求将集群节点划分为若干子集合。每个集合存储若干数据集。在使用层面，用户通过分布式表(Distributed Engine)来查询整个数据集。在ClickHouse的语义中，有一个Cluster概念，它是一个节点的集合，并且定义了存储在该Cluster上的数据集的分片数量，以及分片的副本数量，以及其存储节点。

如图1所示，一个名为cluster-dataset 的Cluster, 定义了4个分片(SHARD), 每个分片有2个副本。当存储在这个Cluster上的数据集，通常会分散存储在4个分片中，并且每个分片数据会存储2个副本。为Cluster增加分片是非常容易，分配机器，修改配置即可。

图2：扩容节点示意图

如图2所示，给cluster-dataset增加一个分片。但是已存的数据数据集仍然在分片SHARED1-4上。很明显，新增的节点存在资源浪费的问题，包括计算资源和存储资源。

为了解决这样问题，有若干方案解决：

a) 将数据全部删除掉，从后备数据源重新导入数据到ClickKhouse;
b) 增加新节点的权重，过一定时间后待数据均衡后，重新调整新增节点权重；
c) 其他，人工搬运数据到新增节点

无论那种方法，都存在缺陷。

对方案a)而言，如果ClickHouse中数据并无后备数据源，那么该方案不可行。即使有后备数据源，重新导入数据耗时，且停服时间与数据量成正比，代价大。对方案b)而言，需要对新节点进行多次权限调整。在调整期间，数据存储压力向新增节点倾斜，无法充分利用集群优势。且容易导致新近数据集中在新增节点上，导致集群资源浪费，降低查询效率。对方案c)而言，操作繁杂，在表多，数据量大的情况下，易出错。