导语
腾讯云消息队列 Kafka 内核负责人鲁仕林为大家带来了《Kafka 分级存储在腾讯云的实践与演进》的精彩分享,从 Kafka 架构遇到的问题与挑战、Kafka 弹性架构方案类比、Kafka 分级存储架构及原理以及腾讯云的落地与实践四个方面详细分享了 Kafka 分级存储在腾讯云的实践与演进。
Kafka 架构遇到的问题与挑战
Kafka 架构
上图是 Kafka 目前本身的架构。腾讯云在线上环境部署 Kafka 集群的时候,都是基于 Zookeeper 或者 Kraft 作为元数据存储,然后使用物理机或者 VM 作为计算资源,本地磁盘作为存储介质来构建集群。
但这种部署模式有以下几个问题:
接下来带着这三个问题,来看一下具体是哪些场景。
运维难度大
上面有提到过 Kafka 集群在某些运维操作的时候需要进行数据迁移,这就导致了运维难度比较大,那哪些场景会涉及到数据搬迁呢?
有三种情况:
我们都知道稳态情况下 Kafka 中的 Patition 分区是均匀分布于各个 Broker 节点,但是分区是归属于 Topic 的,而 Topic 又有各种不同的业务场景,不同的业务场景之间的流量是不一样的,所以 Broker 节点分区均匀的情况下,数据不一定分布均匀。
单节点部分物理资源出现系统瓶颈,必须对节点进行升配或者扩容。
如果日常流量比较大,集群内数据过多的时候,也确实会需要进行数据搬迁。
以上三个问题都会导致数据搬迁,数据搬迁在数据量大的时候会涉及到天级别的运维跨度,这其实在线上是难以接受的。
资源浪费
分析系统瓶颈,考虑的资源基本就是 CPU、磁盘、带宽还有内存。
CPU
Kafka 如果使用消息压缩,那么就需要在服务端解压缩进行校验,就会消耗大量的 CPU(Gzip 压缩损耗尤其大)。另外在云上客户端的环境是较为复杂的,客户端的版本,使用场景,使用姿势都是未知的。
另外,客户在购买腾讯云 CKafka 集群时可能并不关注集群的版本信息,可能购买的集群版本跟他使用的 SDK 的版本并不是一致的,还会涉及到消息的协议转换,也会损耗大量的 CPU。
磁盘
带宽
内存
综上所述,Kafka 在不同使用场景模式下造成的资源瓶颈都是不同的。线上可能就是遇到一个或者几个场景,那么就会带来节点级别的资源损耗。
以上问题大家也都比较了解,这些问题都是因为 Kafka 本地状态比较重,存储在本地,存储和计算资源没有解耦造成的,要解决这些问题就需要引入比较成熟的弹性架构来帮助它实现架构上面的弹性,资源的解耦。
Kafka 弹性架构方案对比
存储计算分离架构
存储计算分离架构是最开始考虑的,也是目前 Pulsar 采用的架构,Pulsar 底层的存储是 Bookkeeper,图中的架构是 HDFS 作为存储底座,该架构就是一套云原生的存储计算分离架构。
这个架构优势比较明显,可以看到计算资源跟存储资源是完全解耦的,扩容的时候有以下优势:
虽然从理论上看是有优势的,但从实际落地来看,有两个比较明显的问题。
这两个问题在线上是比较严重的问题,而且很难找到非常靠谱的存储系统去承载它,强依赖的关系在系统设计过程中也是不可取的,最好是对外部系统弱依赖。
弹性的本地存储架构
第二个架构是目前 CKafka 比较广泛的一套架构,核心逻辑就是云盘 + 云主机,然后依赖自动化运营系统结合云盘的 LVM 以及云主机的热迁移实现快速扩容。
自动化运营系统就是用来监控资源的使用量,比如说使用的是100G的磁盘,已经用到90G了,那么就可以用自动化运营系统监测到 90%的磁盘,需要进行磁盘扩容,那么我们就可以自动化的申请云盘,做 LVM 增加存储空间以及吞吐能力。
自动化运营系统同时会监控计算资源节点的运行情况,监控发现计算资源如 CPU、内存有瓶颈,则会使用腾讯云 CVM 或者容器的热迁移进行计算资源的垂直升配。
这是目前腾讯云线上正在使用的一套产品架构,但是这个产品架构之前也说到了是有缺陷的。它只能垂直扩容,但是 Kafka 是分布式消息系统,只依赖垂直扩容能力肯定是不够的,所以该架构和原生 Kafka 系统有类似横向扩容难的问题。
弹性的远程存储架构
所以针对以上两个弹性架构带来的问题,作者又思考了一些新的可能,看能否本地存储和远程存储结合起来,Kafka 的分级存储,本地会有少量的云盘热数据,远程存储有大量的冷数据。
本地弹性存储
远程弹性存储
优势
结合成本以及服务稳定性以及可落地性这几方面,我们选择本地存储+远程存储构建 Kafka 的弹性架构。
Kafka 分级存储架构
接下来我们来聊一下分级存储当前的加固是怎么实现的?包括它的语义是什么?它能提供怎么样的数据的生命周期管理?
分级存储读写流程
分层生产流程
生产的主体流程和原生 Kafka 类似,写入到云盘的数据会异步同步到远端存储 COS。
分层消费流程
消费的流程也是类似的,会根据用户 Consumer 的 Offset来做一个比较,如果是在本地存储,那么就本地存储优先返回。如果本地存储没有,那就从远端存储里面去实时读取,或者说根据不同的读取策略有不同的读取下载策略,进行消息读取的消费。
数据生命周期
引入了分层存储之后,数据就不只存储在本地了,就涉及到远端跟本地的数据生命周期的管理。
上面这四个图就是一个完整的开启分层存储之后数据的流转。
这 1-4 步骤的状态流转即构成了 Kafka 本地以及远端数据的生命周期管理。
Offset 约束
Kafka 中每条 Message 都对应 Offset 位点,消息数据涉及从本地上传到远端,所以对于上传的 Offset 是有一定约束的。
图一
图二
图二中从左到右分别为 Lz,Ly,Ry,Lx,Rx。
Offset 约束为 Lz >= Ly >= Lx 和 Ly >= Ry >= Rx 两条规则。
Segment 状态机
上文有提到过,数据从本地上传到远程是按照 Segment 维度进行上传的,那么每个 Segment 在上传过程中就会有各种状态,通过 Segment 状态机可以实现 Segment 状态流转以及状态管理。
Segment 状态流转主要体现在三个维度,CopySegment,DeleteSegment,DeletePartition。
CopySegmentStarted -> CopySegmentFinished
DeleteSegmentStarted -> DeleteSegmentFinished
DeletePartitionMarked -> DeletePartitionStarted -> DeletePartitionFinished
同时状态流转中,从一个状态转换到另一个状态是有限制的,比如:不能只能从 CopySegmentStarted -> DeleteSegmentStarted,从 CopySegmentStarted到DeleteSegmentStarted 必须保证:CopySegmentStarted -> CopySegmentFinished -> DeleteSegmentStarted。
分级存储架构
上文介绍了 Kafka 分级存储的读写流程、数据生命周期、Segment 状态流转,那么这些逻辑在 Kafka 原生系统中是在哪里实现的呢?
下图中介绍了整个 Kafka 存储的类以及架构图:
腾讯云的落地与实践
Segment 元数据管理
如下图:
消费性能
上文读写流程中介绍了,写流程其实和原生 Kafka 是类似的,所以写性能基本和原生 Kafka 持平,大家可能都比较担心读取性能,比如读取历史数据的吞吐、SLA、数据可靠性等。在线上实践过程中,我们使用 COS 作为远程存储,在初步实践过程中发现直接使用 COS Stream 流式读取会有性能瓶颈问题。使用以下几个方案去提升读取性能。
隔离性
因为引入了第三方存储,大家也知道线上的稳定性是第一重要的,稳定性就是生命性,所以说它的隔离性也是非常重要的。
硬盘
CPU
带宽
内存
回滚
未来展望
整体落地的架构以上都有介绍的比较清楚,最终我们还是讲一下未来怎么发展。
大家都知道数据存到第三方存储之后,你对这部分数据的可操控性就强了很多,因为数据存在HDFS,那么你对文件就有操纵的能力。
Schema
目前大数据、数据符这种概念在业界传播很广,在各大厂或者各个公司都有不同的场景,Broker 把这部分数据转存到 HDFS 或者COS的时候,我们也可以转存一份 Schema或者Protobuf、Json等。Broker只是做计算层,不光可以上传数据,也可以把 Schema 这个功能运用起来,然后把那个数据格式进行转化。
接入层
Compute Engine
存储层