基础监控告警

最近更新时间:2024-08-23 16:54:43

我的收藏

基础监控

功能介绍

腾讯云数据仓库 TCHouse-C 提供了76项丰富的业务及性能监控指标,方便您查看和掌握集群的运行状态,配置指标实时获取集群的运行告警信息,以便快速响应。

集群监控

登录 腾讯云数据仓库 TCHouse-C 控制台集群列表中选中对应的集群,单击集群 ID/名称进入集群详情页,单击集群监控查看集群的各项性能指标。


说明
可针对具体指标做告警阈值配置及监控数据导出等。监控视图的展示逻辑-指标采集间隔为10秒,视图最小展示粒度为1min,数据点的聚合逻辑为1min内数据采集点的最大值。

集群告警配置

1. 进入集群监控页面,选中需要的指标项对其做监控告警的阈值配置。具体如下:


2. 在新开的腾讯云可观测平台控制台窗口中,筛选需要配置的实例对象(TCHouse-C 的集群名称),根据配置模板对已选中的指标做监控阈值配置。配置告警规则,配置项如下:
设置选项
说明
策略名称
配置相关告警的策略名称
监控类型
默认云产品监控
策略类型
默认 CDWCH/CK 告警
告警对象
默认实例 ID
下拉选中 TCHouse-C 的集群
触发条件
默认手动配置
指标告警中配置指标的相关阈值及告警策略
通知模板
选择已有模板或新建通知模板
说明:
默认项请勿操作修改。
3. 配置结束单击完成即提交告警策略,具体腾讯云可观测平台的告警策略可参考 腾讯云可观测平台-新建告警策略

监控指标项

集群指标

指标名
释义
备注
集群节点数
CK 节点个数
瞬时值
CPU 使用率
节点平均 CPU 使用率
平均值
内存使用率
节点平均内存使用率
平均值
数据盘使用率
节点平均内存磁盘使用率
平均值
节点接收流量
节点平均接收流量
平均值
节点发送流量
节点平均发送流量
平均值
总查询数
节点查询数之和
累加值
插入数
节点插入数之和
累加值
插入失败数
节点插入失败数之和
累加值
查询失败数
节点查询失败数求和
累加值

节点指标

指标名
释义
备注
CPU 使用率
CPU 的使用情况
平均值
文件打开数
单位时间内的文件打开数
平均值
内存使用率
内存的使用情况
平均值
节点一分钟负载
节点一分钟负载
平均值
节点五分钟负载
节点五分钟负载
平均值
节点十五分钟负载
节点十五分钟负载
平均值
数据盘使用率
数据盘的使用情况
平均值
节点接收流量
单位时间内的节点的接收数据量
平均值
节点流出流量
单位时间内的节点的流出数据量
平均值
节点硬盘 IO 使用率
单位时间内磁盘使用率
平均值
节点硬盘 IO 等待时间
读写磁盘使用时间总和除以读写总次数
平均值
节点硬盘读 IOPS
单位时间内进行磁盘读取的次数
平均值
节点硬盘写 IOPS
单位时间内进行磁盘写入的次数
平均值
CPU 峰值使用率
所有核总的 CPU 时间减去总的 CPU 空闲时间,求百分比
平均值
CPU 负载比率
节点一分钟负载除以 CPU 的核数
平均值

业务指标

指标名
释义
备注
存活
检测节点 CH 进程的存活情况
瞬时值
上下文的锁等待
上下文锁等待的个数
ClickHouseMetrics_ContextLockWait,瞬时值
HTTP 连接数
HTTP 协议链接个数
ClickHouseMetrics_HTTPConnection,瞬时值
TCP 连接数
TCP 协议链接个数
ClickHouseMetrics_TCPConnection,瞬时值
单位时间 insert 执行次数
单位时间内的 insert 个数
ClickHouseProfileEvents_InsertQuery,均值
Merge 消耗的时间(速率)
单位时间内的 merge 消耗时间
ClickHouseProfileEvents_MergesTimeMilliseconds,均值
MySQL 方式的连接数
通过 jdbc 方式的链接个数
ClickHouseMetrics_MySQLConnection,瞬时值
包含增删改查的 query 个数
单位时间内包含增删改查的 query 个数
ClickHouseProfileEvents_Query,均值
查询线程数
当前时间的查询线程数
ClickHouseMetrics_QueryThread,瞬时值
单位时间内的副本块合并个数
单位时间内的副本块合并个数
ClickHouseProfileEvents_ReplicatedPartMerges,均值
单位时间内的副本块修改个数
单位时间内的副本块修改个数
ClickHouseProfileEvents_ReplicatedPartMutations,均值
插入失败数
单位时间内的插入失败数
ClickHouseProfileEvents_FailedInsertQuery,均值
查询失败数
单位时间内的查询失败数
ClickHouseProfileEvents_FailedSelectQuery,均值
合并数
当前产生合并的个数
ClickHouseMetrics_Merge,瞬时值
启动时间
单位时间内启动的时长
ClickHouseMetrics_Uptime,均值
mutation 数量
块修改数
ClickHouseMetrics_PartMutation,瞬时值
readonlyReplica 数量
只读副本数
ClickHouseMetrics_ReadonlyReplica,瞬时值

CK 侧 ZK 指标

指标名
释义
备注
ZK 请求数
当前时间节点请求 ZK 的请求数
ClickHouseMetrics_ZooKeeperRequest,瞬时值
当前 ZK session 个数
当前时间节点链接 ZK 的 session 个数
ClickHouseMetrics_ZooKeeperSession,瞬时值
ZK watch 个数
当前时间节点链接 ZK watch 个数
ClickHouseMetrics_ZooKeeperWatch,瞬时值

ZK 指标

指标名
释义
备注
发包个数
单位时间 ZK 节点发送的 packet 个数
packets_sent,均值
收包个数
单位时间 ZK 节点接收的 packet 个数
packets_received,均值
ZK 进程存活
ZK 的进程监控,1标识存活,0代表失活
瞬时值
全局 session 个数
当前时间全局的 session 个数
global_sessions,瞬时值
拒绝链接个数
单位时间内 ZK 拒绝链接的个数
connection_rejected,均值
请求提交队列个数
当前时间请求提交队列个数
request_commit_queued,均值
预处理队列等待时间
单位时间内预处理队列等待时间
prep_processor_queue_time_ms,均值
预处理时间
单位时间内预处理时间
prep_process_time,均值
ZK_watch 个数
当前时间 ZK_watch 个数
watch_count,瞬时值
JVM 内存池使用
JVM 内存池使用大小情况
jvm_memory_pool_bytes_used,瞬时值
zookeeper 节点 leader
zookeeper 节点 leader,1标识 leader,0标识 follower
瞬时值
zookeeper 事务版本
zookeeper 事务版本
zxid,瞬时值
leaderServes 配置
ZooKeeper 是否应该在非负责任节点(follower)上接受客户端连接, 1标识接受,0标识不接受
瞬时值
正在运行的分布式 ddl
正在运行的分布式 ddl
瞬时值
znode 个数
znode 个数
瞬时值
具体指标的含义可参见 ClickHouse 官网 metrics
注意:
ZK 的监控指标在21.3.9.84及以上版本高可用集群支持。