基础监控
功能介绍
腾讯云数据仓库 TCHouse-C 提供了76项丰富的业务及性能监控指标,方便您查看和掌握集群的运行状态,配置指标实时获取集群的运行告警信息,以便快速响应。
集群监控
说明
可针对具体指标做告警阈值配置及监控数据导出等。监控视图的展示逻辑-指标采集间隔为10秒,视图最小展示粒度为1min,数据点的聚合逻辑为1min内数据采集点的最大值。
集群告警配置
1. 进入集群监控页面,选中需要的指标项对其做监控告警的阈值配置。具体如下:
2. 在新开的腾讯云可观测平台控制台窗口中,筛选需要配置的实例对象(TCHouse-C 的集群名称),根据配置模板对已选中的指标做监控阈值配置。配置告警规则,配置项如下:
设置选项 | 说明 |
策略名称 | 配置相关告警的策略名称 |
监控类型 | 默认云产品监控 |
策略类型 | 默认 CDWCH/CK 告警 |
告警对象 | 默认实例 ID |
| 下拉选中 TCHouse-C 的集群 |
触发条件 | 默认手动配置 |
| 指标告警中配置指标的相关阈值及告警策略 |
通知模板 | 选择已有模板或新建通知模板 |
说明:
默认项请勿操作修改。
3. 配置结束单击完成即提交告警策略,具体腾讯云可观测平台的告警策略可参考 腾讯云可观测平台-新建告警策略。
监控指标项
集群指标
指标名 | 释义 | 备注 |
集群节点数 | CK 节点个数 | 瞬时值 |
CPU 使用率 | 节点平均 CPU 使用率 | 平均值 |
内存使用率 | 节点平均内存使用率 | 平均值 |
数据盘使用率 | 节点平均内存磁盘使用率 | 平均值 |
节点接收流量 | 节点平均接收流量 | 平均值 |
节点发送流量 | 节点平均发送流量 | 平均值 |
总查询数 | 节点查询数之和 | 累加值 |
插入数 | 节点插入数之和 | 累加值 |
插入失败数 | 节点插入失败数之和 | 累加值 |
查询失败数 | 节点查询失败数求和 | 累加值 |
节点指标
指标名 | 释义 | 备注 |
CPU 使用率 | CPU 的使用情况 | 平均值 |
文件打开数 | 单位时间内的文件打开数 | 平均值 |
内存使用率 | 内存的使用情况 | 平均值 |
节点一分钟负载 | 节点一分钟负载 | 平均值 |
节点五分钟负载 | 节点五分钟负载 | 平均值 |
节点十五分钟负载 | 节点十五分钟负载 | 平均值 |
数据盘使用率 | 数据盘的使用情况 | 平均值 |
节点接收流量 | 单位时间内的节点的接收数据量 | 平均值 |
节点流出流量 | 单位时间内的节点的流出数据量 | 平均值 |
节点硬盘 IO 使用率 | 单位时间内磁盘使用率 | 平均值 |
节点硬盘 IO 等待时间 | 读写磁盘使用时间总和除以读写总次数 | 平均值 |
节点硬盘读 IOPS | 单位时间内进行磁盘读取的次数 | 平均值 |
节点硬盘写 IOPS | 单位时间内进行磁盘写入的次数 | 平均值 |
CPU 峰值使用率 | 所有核总的 CPU 时间减去总的 CPU 空闲时间,求百分比 | 平均值 |
CPU 负载比率 | 节点一分钟负载除以 CPU 的核数 | 平均值 |
业务指标
指标名 | 释义 | 备注 |
存活 | 检测节点 CH 进程的存活情况 | 瞬时值 |
上下文的锁等待 | 上下文锁等待的个数 | ClickHouseMetrics_ContextLockWait,瞬时值 |
HTTP 连接数 | HTTP 协议链接个数 | ClickHouseMetrics_HTTPConnection,瞬时值 |
TCP 连接数 | TCP 协议链接个数 | ClickHouseMetrics_TCPConnection,瞬时值 |
单位时间 insert 执行次数 | 单位时间内的 insert 个数 | ClickHouseProfileEvents_InsertQuery,均值 |
Merge 消耗的时间(速率) | 单位时间内的 merge 消耗时间 | ClickHouseProfileEvents_MergesTimeMilliseconds,均值 |
MySQL 方式的连接数 | 通过 jdbc 方式的链接个数 | ClickHouseMetrics_MySQLConnection,瞬时值 |
包含增删改查的 query 个数 | 单位时间内包含增删改查的 query 个数 | ClickHouseProfileEvents_Query,均值 |
查询线程数 | 当前时间的查询线程数 | ClickHouseMetrics_QueryThread,瞬时值 |
单位时间内的副本块合并个数 | 单位时间内的副本块合并个数 | ClickHouseProfileEvents_ReplicatedPartMerges,均值 |
单位时间内的副本块修改个数 | 单位时间内的副本块修改个数 | ClickHouseProfileEvents_ReplicatedPartMutations,均值 |
插入失败数 | 单位时间内的插入失败数 | ClickHouseProfileEvents_FailedInsertQuery,均值 |
查询失败数 | 单位时间内的查询失败数 | ClickHouseProfileEvents_FailedSelectQuery,均值 |
合并数 | 当前产生合并的个数 | ClickHouseMetrics_Merge,瞬时值 |
启动时间 | 单位时间内启动的时长 | ClickHouseMetrics_Uptime,均值 |
mutation 数量 | 块修改数 | ClickHouseMetrics_PartMutation,瞬时值 |
readonlyReplica 数量 | 只读副本数 | ClickHouseMetrics_ReadonlyReplica,瞬时值 |
CK 侧 ZK 指标
指标名 | 释义 | 备注 |
ZK 请求数 | 当前时间节点请求 ZK 的请求数 | ClickHouseMetrics_ZooKeeperRequest,瞬时值 |
当前 ZK session 个数 | 当前时间节点链接 ZK 的 session 个数 | ClickHouseMetrics_ZooKeeperSession,瞬时值 |
ZK watch 个数 | 当前时间节点链接 ZK watch 个数 | ClickHouseMetrics_ZooKeeperWatch,瞬时值 |
ZK 指标
指标名 | 释义 | 备注 |
发包个数 | 单位时间 ZK 节点发送的 packet 个数 | packets_sent,均值 |
收包个数 | 单位时间 ZK 节点接收的 packet 个数 | packets_received,均值 |
ZK 进程存活 | ZK 的进程监控,1标识存活,0代表失活 | 瞬时值 |
全局 session 个数 | 当前时间全局的 session 个数 | global_sessions,瞬时值 |
拒绝链接个数 | 单位时间内 ZK 拒绝链接的个数 | connection_rejected,均值 |
请求提交队列个数 | 当前时间请求提交队列个数 | request_commit_queued,均值 |
预处理队列等待时间 | 单位时间内预处理队列等待时间 | prep_processor_queue_time_ms,均值 |
预处理时间 | 单位时间内预处理时间 | prep_process_time,均值 |
ZK_watch 个数 | 当前时间 ZK_watch 个数 | watch_count,瞬时值 |
JVM 内存池使用 | JVM 内存池使用大小情况 | jvm_memory_pool_bytes_used,瞬时值 |
zookeeper 节点 leader | zookeeper 节点 leader,1标识 leader,0标识 follower | 瞬时值 |
zookeeper 事务版本 | zookeeper 事务版本 | zxid,瞬时值 |
leaderServes 配置 | ZooKeeper 是否应该在非负责任节点(follower)上接受客户端连接, 1标识接受,0标识不接受 | 瞬时值 |
正在运行的分布式 ddl | 正在运行的分布式 ddl | 瞬时值 |
znode 个数 | znode 个数 | 瞬时值 |
注意:
ZK 的监控指标在21.3.9.84及以上版本高可用集群支持。