集群事件

最近更新时间：2025-03-11 16:43:43
本页目录：

功能介绍
集群事件中包含事件列表和事件策略。
事件列表：记录集群发生的关键变化事件或异常事件。
事件策略：支持根据业务情况自定义事件监控触发策略，已开启监控的事件可设置为集群巡检项。
查看事件列表
1. 登录 弹性 MapReduce 控制台，在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择集群监控 > 集群事件 > 事件列表，可直接查看当前集群所有操作事件。
﻿

严重程度说明如下：
致命：节点或服务的异常事件，人工干预处理，否则服务不可用，这类事件可能持续一段时间。
严重：暂时未造成服务或节点不可用问题，属于预警类，如果一直不处理会产生致命事件。
一般：记录集群发生的常规事件，一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录，同时可查看事件记录相关指标、日志或现场。
﻿
﻿
设置事件策略
1. 登录 EMR 控制台，在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择集群监控 > 集群事件 > 事件策略，可以自定义设置事件监控触发策略。
3. 事件配置列表包含：事件名、事件发现策略、严重程度（致命/严重/一般）、开启监控，支持修改和保存。
﻿
﻿
4. 事件发现策略分两类：一类事件为系统固定策略事件，不支持用户修改；另一类事件会因客户业务标准的不同而变化，支持用户设置。
﻿
﻿
5. 事件策略可自定义是否开启事件监控，已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启，部分事件默认开启且不可关闭。具体规则如下：
类别
事件名称
事件含义
建议&措施
默认值
严重程度
允许关闭
默认开启
节点
CPU 利用率连续高于阈值
机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
﻿
CPU IO wait 平均值高于阈值
t 秒内机器 CPU iowait 使用率平均值 >= m（300<=t<=2592000）
人工排查
m=60, t=1800
严重
是
是
﻿
CPU 1分钟负载连续高于阈值
CPU 1分钟负载 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=8, t=1800
一般
是
否
﻿
CPU 5分钟负载连续高于阈值
CPU 5分钟负载 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=8, t=1800
严重
是
否
﻿
内存使用率持续高于阈值
内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
﻿
系统进程总数连续高于阈值
系统进程总数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=10000, t=1800
严重
是
是
﻿
节点文件句柄使用率持续超过阈值
节点文件句柄使用率 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=85, t=1800
一般
是
否
﻿
节点 TCP 连接数持续超过阈值
节点 TCP 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
检查是否存在连接泄露
m=10000, t=1800
一般
是
否
﻿
节点内存使用配置超过阈值
节点上所有角色内存使用配置叠加超过节点物理内存阈值
调整节点进程堆内存分配
90%
严重
是
否
﻿
元数据库异常
使用连接测试命令无法正常连接元数据库
人工排查
-
严重
是
是
﻿
单盘空间使用率持续高于阈值
单盘空间使用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
﻿
单盘 IO 设备利用率持续高于阈值
单盘 IO 设备利用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
﻿
单盘 INODES 使用率持续高于阈值
单盘 INODES 使用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
﻿
子机 UTC 时间和 NTP 时间差值高于阈值
子机 UTC 时间和 NTP 时间差值高于阈值(单位毫秒)
1. 确保 NTP daemon 处于运行状态 
2. 确保与 NTP server 的网络通信正常
差值=30000
严重
是
是
﻿
故障节点自动补偿
当开启自动补偿功能后，task 节点和 router 节点异常时，系统将自动购买同机型规格配置进行补偿替换
1. 补偿替换成功，无须关注 
2. 补偿替换失败，请前往 控制台 手动销毁，重新购买节点进行替换
-
一般
是
是
﻿
节点故障
集群中有故障节点
请前往 控制台 进行处理或 提交工单 联系专员对接处理。
-
严重
否
是
﻿
节点磁盘 IO 异常
节点磁盘 IO 异常（检测基于设备 IOPS 和 IO 设置使用率，适用部分 IO 异常情况）
节点磁盘 IO 异常。
处理方式：可能是 IO Hang 或磁盘异常导致
-
严重
是
否
﻿
实例硬盘异常待授权
实例发生硬盘异常，需要授权维修
请登录云服务维修任务控制台，对维修任务进行授权操作
-
严重
是
是
﻿
实例运行异常待授权
实例发生运行异常，需要授权维修
请登录云服务维修任务控制台，对维修任务进行授权操作
-
严重
是
是
﻿
实例运行隐患待授权
实例运行隐患待授权
请登录云服务维修任务控制台，对维修任务进行授权操作
-
严重
是
否
﻿
连接跟踪表满
连接跟踪表满
1.人工排查
2.提单咨询
-
严重
是
否
﻿
子机 nvme 设备error
子机 nvme 盘故障导致掉盘
1.隔离问题盘的读写，卸载对应目录
2.提单咨询
-
严重
是
是
﻿
连接数超限导致丢包
连接数超限导致丢包
1.人工排查
2.提单咨询
-
严重
是
否
﻿
外网出带宽超限导致丢包
云服务器实例外网出带宽超过主机的外网出带宽限制导致丢包。带宽毛刺导致的丢包不会体现在带宽图表中,
原因：带宽最细统计粒度为 10 级（10 秒内总流量/10 秒）。若常量带宽没有明显超出也可忽略
提高外网带宽上限。如果已达到可购买的最高上限，可通过负载均衡等方式降低单机带宽
-
严重
是
否
﻿
机器重启
机器重启
当云服务器被重启的时候，会触发该事件，请根据实际情况查看状态变更是否符合预期
-
严重
是
是
﻿
内存 OOM
系统内存使用过载
评估当前系统所配置内存是否满足业务内存需求，如果需要更大的内存建议升级 CVM 内存配置
-
严重
是
是
﻿
内核故障
操作系统内核 bug 或驱动问题导致操作系统内核发生致命错误
检查系统中是否有加载内核自身携带的内核驱动以外的其它内核驱动模块。尝试不要加载这些模块，观察系统运行情况 
-
严重
是
是
﻿
磁盘只读
磁盘无法写入数据
检查云服务器当前的运行状态是否正常，如果发生了系统挂死等情况，可以从控制台重启（强制重启）恢复
-
严重
是
是
﻿
节点指标数据采集丢失
节点指标数据采集异常
人工排查
-
一般
是
是
HDFS
HDFS 文件总数持续高于阈值
集群文件总数量 >= m，持续时间 t 秒（300<=t<=2592000）
调大 namenode 内存
m=50,000,000, t=1800
严重
是
否
﻿
HDFS 总 block 数量持续高于阈值
集群 Blocks 总数量 >= m，持续时间 t 秒（300<=t<=2592000）
调大 namenode 内存或调大 block size
m=50,000,000, t=1800
严重
是
否
﻿
HDFS 标记为 Dead 状态的数据节点数量持续高于阈值
标记为 Dead 状态的数据节点数量 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1,t=1800
一般
是
否
﻿
HDFS 存储空间使用率持续高于阈值
HDFS 存储空间使用率 >= m，持续时间 t 秒（300<=t<=2592000）
清理 HDFS 中的文件或对集群扩容
m=85, t=1800
严重
是
是
﻿
NameNode 发生主备切换
NameNode 发生主备切换
排查 NameNode 切换的原因
-
严重
是
是
﻿
NameNode RPC 请求处理延迟持续高于阈值
RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）
人工排查
m=300, t=300
严重
是
否
﻿
NameNode 当前连接数持续高于阈值
NameNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
﻿
NameNode 发生 full GC
NameNode 发生 full GC
参数调优
-
严重
是
是
﻿
NameNode JVM 内存使用率持续高于阈值
NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 NameNode 堆内存大小
m=85, t=1800
严重
是
是
﻿
DataNode RPC 请求处理延迟持续高于阈值
RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）
人工排查
m=300, t=300
一般
是
否
﻿
DataNode 当前连接数持续高于阈值
DataNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
﻿
DataNode 发生 full GC
NameNode 发生 full GC
参数调优
-
一般
是
否
﻿
DataNode JVM 内存使用率持续高于阈值
NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 DataNode 堆内存大小
m=85, t=1800
一般
是
是
﻿
HDFS 两个NameNode 服务状态均为 Standby
两个 NameNode 角色同时处于 StandBy 状态
人工排查
-
严重
是
是
﻿
HDFS MissingBlocks数量持续高于阈值
集群 MissingBlocks 数量>=m，持续时间t秒(300<=t<=604800)
建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
m=1,t=1800
严重
是
是
﻿
HDFS NameNode 进入安全模式
NameNode 进入安全模式(持续300s)
建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
-
严重
是
是
﻿
HDFS NameNode
 长时间未做 
Checkpoint
HDFS NameNode 长时间未做 Checkpoint
1. 检查 SecondaryNameNode(Standby  NameNode) 的状态
2. 检查 HDFS 配置文件 hdfs-site.xml  中的 
dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 参数
3. 查看 HDFS 集群的日志信息
m=24
一般
是
是
﻿
HDFS 小文件占比超过指定阈值
小文件比率>=50%,每天巡检一次
合并相同类型的小文件或定时清理掉小文件或用对象存储来存小文件
m=50
一般
是
是
﻿
HDFS目录满
HDFS存在目录，其下节点个数超过警戒阈值
清理目录下的节点数量，或者提高目录的容量限制值
m=95
严重
是
是
YARN
集群当前丢失的 NodeManager 的个数持续高于阈值
集群当前丢失的 NodeManager 的个数 >= m，持续时间 t 秒（300<=t<=2592000）
检查 NM 进程状态，检查网络是否畅通
m=1, t=1800
一般
是
否
﻿
Pending Containers 个数持续高于阈值
pending Containers 个数 >= m个，持续时间 t 秒（300<=t<=2592000）
合理指定 YARN 任务可用资源
m=90, t=1800
一般
是
否
﻿
集群内存使用率持续高于阈值
内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
集群扩容
m=85, t=1800
严重
是
是
﻿
集群 CPU 使用率持续高于阈值
CPU 使用率 >= m，持续时间 t 秒（300<=t<=2592000）
集群扩容
m=85, t=1800
严重
是
是
﻿
各队列中可用的 CPU 核数持续低于阈值
任意队列中可用 CPU 核数 <= m，持续时间 t 秒（300<=t<=2592000）
给队列分配更多资源
m=1, t=1800
一般
是
否
﻿
各队列中可用的内存持续低于阈值
任意队列中可用内存 <= m，持续时间 t 秒（300<=t<=2592000）
给队列分配更多资源
m=1024, t=1800
一般
是
否
﻿
ResourceManager 发生主备切换
ResourceManager 发生了主备切换
检查 RM 进程状态，查看 standby RM 日志查看主备切换原因
-
严重
是
是
﻿
ResourceManager 发生 full GC
ResourceManager 发生了 full GC
参数调优
-
严重
是
是
﻿
ResourceManager JVM 内存使用率持续高于阈值
RM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 ResourceManager 堆内存大小
m=85, t=1800
严重
是
是
﻿
NodeManager 发生 full GC
NodeManager 发生 full GC
参数调优
-
一般
是
否
﻿
NodeManager 可用的内存持续低于阈值
单个 NM 可用内存持续 <= m，持续时间 t 秒（300<=t<=2592000）
调整 NodeManager 堆内存大小
m=1, t=1800
一般
是
否
﻿
NodeManager JVM 内存使用率持续高于阈值
NM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 NodeManager 堆内存大小
m=85, t=1800
一般
是
否
﻿
YARN ResourceManager 无 active 状态
YARN ResourceManager 无 active 状态
人工排查
t=90
严重
是
是
﻿
Yarn Application作业运行失败次数持续高于阈值
Yarn Application 作业运行失败
人工排查
m=1,t=300
一般
是
否
﻿
YARN 当前不健康的 NodeManager 的个数持续高于阈值
Unhealthy NodeManager 个数>=m
，持续时间t秒（300<=t<=2592000）
人工排查
m=1,t=1800
一般
是
否
﻿
App 查询元数据加速桶单桶带宽超过指定阈值
App 查询元数据加速桶,
单桶读带宽超过指定阈值
>=m(GB/s),
写带宽超过指定阈值
>=m(GB/s)
人工排查
m1=10(GB/s) m2=10(GB/s)
一般
是
否
﻿
App 查询元数据加速桶单桶请求频率超过指定阈值
App 查询元数据加速桶,单桶各 api 请求频率超过执行阈值>=m(次/秒)
人工排查
m1=10000 
m2=10000 m3=10000 m4=10000
一般
是
否
﻿
YARN application运行时长高于阈值
Yarn application 运行时间>=m(min)
人工排查
t=30min
一般
是
否
﻿
被拉黑的NodeManager阈值
App 被拉黑的节点数大于阈值
人工排查
m=0
一般
是
否
YARN
(灰度支持需开启相关洞察)
App 物理 CPU 占比超过指定阈值
App 物理 CPU 使用超过一定比例
人工排查
m=50
一般
是
否
﻿
App 物理内存占比超过指定阈值
App 物理内存使用超过一定比例
人工排查
m=50
一般
是
否
﻿
App 物理节点磁盘读写超过指定阈值
App 物理磁盘读写 IO 在单节点超过一定阈值
人工排查
m=50 (kb/s)
一般
是
否
﻿
App 物理节点CPU 占比超过指定阈值
App 物理 CPU 使用在单节点超过一定比例
人工排查
m=50
一般
是
否
﻿
App 物理节点内存占比超过指定阈值
App 物理内存使用在单节点超过一定比例
人工排查
m=50
一般
是
否
﻿
App 作业天同比提交量超过指定阈值
App 作业天同比提交量超过指定阈值
人工排查
m=50
一般
是
否
﻿
App 物理节点本地磁盘使用占比超过指定阈值
App 物理节点本地磁盘使用占比在单节点超过一定阈值
人工排查
m=60
一般
是
否
HBase
集群处于 RIT Region 个数持续高于阈值
集群处于 RIT Region 个数 >= m，持续时间 t 秒（300<=t<=2592000）
HBase2.0 版本以下，hbase hbck -fixAssigment
m=1, t=60
严重
是
是
﻿
集群 dead RS 数量持续高于阈值
集群 dead RegionServer 数量 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1, t=300
一般
是
是
﻿
集群每个 RS 平均 REGION 数持续高于阈值
集群每个 RegionServer 平均 REGION 数 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=300, t=1800
一般
是
是
﻿
HMaster 发生 full GC
HMaster 发生了 full GC
参数调优
m=5, t=300
一般
是
是
﻿
HMaster JVM 内存使用率持续高于阈值
HMaster JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 HMaster 堆内存大小
m=85, t=1800
严重
是
是
﻿
HMaster 当前连接数持续高于阈值
HMaster 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1000, t=1800
一般
是
否
﻿
RegionServer 发生 full GC
RegionServer 发生 full GC
参数调优
m=5, t=300
严重
是
否
﻿
RegionServer JVM 内存使用率持续高于阈值
RegionServer JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 RegionServer 堆内存大小
m=85, t=1800
一般
是
否
﻿
RegionServer 当前 RPC 连接数持续高于阈值
RegionServer 当前 RPC 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1000, t=1800
一般
是
否
﻿
RegionServer Storefile 个数持续高于阈值
RegionServer Storefile 个数 >= m，持续时间 t 秒（300<=t<=2592000）
建议执行 major compaction
m=50000, t=1800
一般
是
否
﻿
HBASE 两个 HMaster 服务状态均为 Standby
两个 HMaster 角色同时处于 StandBy 状态
人工排查
-
严重
是
是
﻿
HMaster
发生主备切换
HMaster发生主备切换
通过 HMaster 服务日志进行排查
-
严重
是
是
Hive
HiveServer2 发生 full GC
HiveServer2 发生 full GC
参数调优
m=5, t=300
严重
是
是
﻿
HiveServer2 JVM 内存使用率持续高于阈值
HiveServer2 JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 HiveServer2 堆内存大小
m=85, t=1800
严重
是
是
﻿
HiveMetaStore 发生 full GC
HiveMetaStore 发生 full GC
参数调优
m=5, t=300
一般
是
是
﻿
HiveWebHcat 发生 full GC
HiveWebHcat 发生 full GC
参数调优
m=5, t=300
一般
是
是
﻿
HIVE SQL 编译时间高于阈值
HIVE SQL 编译时间高于阈值
人工排查
t=60
一般
是
否
﻿
Hive表BucketVersion不匹配
Hive表bucket version不一致
针对对应的表调整hive.exec.bucketing.version
-
一般
是
否
Zookeeper
Zookeeper 连接数持续高于阈值
Zookeeper 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=65535, t=1800
一般
是
否
﻿
ZNode 节点数量持续高于阈值
ZNode 节点数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
﻿
Zookeeper 发生 leader 切换
Zookeeper发生leader切换
通过 Zookeeper 服务日志进行排查
-
严重
是
是
Impala
ImpalaCatalog JVM 内存使用率持续高于阈值
ImpalaCatalog JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 ImpalaCatalog 堆内存大小
m=0.85, t=1800
一般
是
否
﻿
ImpalaDaemon JVM 内存使用率持续高于阈值
ImpalaDaemon JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)   
调整 ImpalaDaemon 堆内存大小   
m=0.85, t=1800
一般
是
否
﻿
Impala Beeswax API 客户端连接数高于阈值
Impala Beeswax API 客户端连接数 >=m   
控制台调整 impalad.flgs 配置 fe_service_threads 数量  
m=64,t=120
严重
是
是
﻿
Impala HS2客户端连接数高于阈值
Impala HS2客户端连接数 >=m
控制台调整 impalad.flgs 配置 fe_service_threads 数量  
m=64,t=120
严重
是
是
﻿
Query 运行时长超过阈值
Query 运行时长超过阈值>=m(seconds)
人工排查
-
严重
是
否
﻿
执行 Query 失败总数高于阈值 
执行 Query 失败率高于阈值>=m，统计时间粒度t秒(300<=t<=604800)    
人工排查
m=1，t=300
严重
是
否
﻿
提交 Query 总数高于阈值
执行 Query 失败总数高于阈值>=m，统计时间粒度t秒(300<=t<=604800)
人工排查
m=1，t=300
严重
是
否
﻿
执行 Query 失败率高于阈值
提交 Query 总数高于阈值 >=m，统计时间粒度t秒(300<=t<=604800)
人工排查
m=1，t=300
严重
是
否
﻿
Created 状态总数高于阈值
Created 状态总数高于阈值
人工排查
m=50，t=300
一般
是
否
﻿
Created 状态时长超过阈值
Created 状态时长超过阈值
人工排查
t=1
一般
是
否
PrestoSQL
PrestoSQL 当前失败节点数量持续高于阈值
PrestoSQL 当前失败节点数量>=m，持续时间t秒(300<=t<=604800) 
人工排查
m=1, t=1800
严重
是
是
﻿
PrestoSQL 当前资源组排队资源持续高于阈值
PrestoSQL 资源组排队任务>=m，持续时间 t秒(300<=t<=604800)    
参数调优
m=5000, t=1800
严重
是
是
﻿
PrestoSQL 每分钟失败查询数量超过阈值
PrestoSQL 失败查询数量 >=m
人工排查
m=1, t=1800
严重
是
否
﻿
PrestoSQLCoordinator 发生full GC
PrestoSQLCoordinator 发生full GC
参数调优
-
一般
是
否
﻿
PrestoSQLCoordinator JVM 内存使用率持续高于阈值
PrestoSQLCoordinator JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoSQLCoordinator 堆内存大小
m=0.85, t=1800
严重
是
是
﻿
PrestoSQLWorker 发生 full GC
PrestoSQLWorker 发生 full GC 
参数调优
-
一般
是
否
﻿
PrestoSQLWorker JVM 内存使用率持续高于阈值
PrestoSQLWorker JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoSQLWorker 堆内存大小
m=0.85, t=1800
严重
是
否
﻿
PRESTO查询消耗CPU时间或累计内存高于指定阈值
查询消耗CPU时间或累计内存高于指定阈值
人工排查
m=60，t=1
一般
是
否
﻿
PRESTO执行时长告警
查询消耗CPU时间或累计内存高于指定阈值
人工排查
t=1800
一般
是
否
Presto
Presto 当前失败节点数量持续高于阈值
Presto 当前失败节点数量>=m，持续时间t秒(300<=t<=604800) 
人工排查
m=1, t=1800
严重
是
是
﻿
Presto 当前资源组排队资源持续高于阈值
Presto 资源组排队任务>=m，持续时间 t秒(300<=t<=604800)   
参数调优
m=5000, t=1800
严重
是
是
﻿
Presto 每分钟失败查询数量超过阈值
Presto 失败查询数量 >=m
人工排查
m=1, t=1800
严重
是
否
﻿
PrestoCoordinator 发生full GC
PrestoCoordinator 发生full GC
参数调优
-
一般
是
否
﻿
PrestoCoordinator JVM 内存使用率持续高于阈值
PrestoCoordinator JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoCoordinator 堆内存大小
m=0.85, t=1800
一般
是
是
﻿
PrestoWorker 发生 full GC
PrestoWorker 发生 full GC 
参数调优
-
一般
是
否
﻿
PrestoWorker JVM 内存使用率持续高于阈值
PrestoWorker JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoWorker 堆内存大小
m=0.85, t=1800
严重
是
否
Trino
TRINO查询任务指标超过指定阈值
TRINO查询任务对应维度指标超过指定阈值
调整集群资源配置或者检查修改查询
m1=9999999 
or 
m2=9999999999
or m3=9999999999999
or m4=9999999999999
严重
是
否
﻿
TRINO查询消耗CPU时间或累计内存高于指定阈值
查询消耗CPU时间或累计内存高于指定阈值
人工排查SPARK任务执行失败
t=1800
一般
是
否
﻿
TRINO执行时长告警
执行时长超过阈值(秒)
人工排查
t=1800
一般
是
否
﻿
Trino全表扫描分区表
全表扫描分区表
检查扫描条件
-
一般
是
是
Alluxio
Alluxio 当前 Worker 总数持续低于阈值
Alluxio 当前 Worker 总数持续低于阈值<=m，持续时间 t秒(300<=t<=604800)
人工排查
m=1, t=1800
严重
是
否
﻿
Alluxio worker层上资源使用率持续高于阈值
Alluxio 当前 Worker 的层上容量使用率>=m, 持续时间 t秒(300<=t<=604800)  
参数调优
m=0.85, t=1800
严重
是
否
﻿
AlluxioMaster 发生full GC
AlluxioMaster 发生full GC
人工排查
-
一般
是
否
﻿
AlluxioMaster JVM 内存使用率持续高于阈值
AlluxioMaster JVM 内存使用率 >=m, 持续时间 t秒(300<=t<=604800)    
调整 AlluxioWorker 堆内存大小
m=0.85, t=1800
严重
是
是
﻿
AlluxioWorker 发生 full GC
AlluxioWorker 发生 full GC
人工排查
-
一般
是
否
﻿
AlluxioWorker JVM 内存使用率持续高于阈值
AlluxioWorker JVM 内存使用率 >=m, 持续时间 t秒(300<=t<=604800)
调整 AlluxioMaster 堆内存大小
m=0.85, t=1800
严重
是
是
kudu
集群副本倾斜度高于阈值
集群副本倾斜度 >=m，持续时间 t秒(300<=t<=3600)
使用 rebalance 命令对 replica 进行平衡
m=100, t=300
一般
是
是
﻿
混合时钟错误高于阈值
混合时钟错误 >=m，持续时间 t秒(300<=t<=3600)
确保 NTP daemon 处于运行状态，确保与 NTP server 的网络通信正常
m=5000000, t=300
一般
是
是
﻿
处于运行中状态的 tablet 高于阈值
处于运行中状态的 tablet 数量 >=m，持续时间 t秒(300<=t<=3600)
单个节点 tablet 数量太多会影响性能，建议清理不需要的表和分区，或适当扩容
m=1000, t=300   
一般
是
是
﻿
处于失败状态的 tablet 高于阈值
处于失败状态的 tablet 数量 >=m，持续时间 t秒(300<=t<=3600) 
检查是否有磁盘不可用或者数据文件损坏
m=1, t=300
一般
是
是
﻿
处于失败状态的数据目录数量高于阈值
处于失败状态的数据目录数量 >=m，持续时间 t秒(300<=t<=3600) 
检查 fs_data_dirs 参数中配置的路径是否可用
m=1, t=300
严重
是
是
﻿
容量耗尽的数据目录数量高于阈值
容量耗尽的数据目录数量 >=m，持续时间 t秒(120<=t<=3600)
清理不需要的数据文件，或适当扩容
m=1, t=120
严重
是
是
﻿
因队列过载被拒绝的写请求数高于阈值
因队列过载被拒绝的写请求数>=m，持续时间t秒(300<=t<=3600)       
检查是否存在写热点或者工作线程数量偏少
m=10, t=300 
一般
是
否
﻿
过期 scanner 的数量高于阈值
过期 scanner 的数量 >=m，持续时间 t秒(300<=t<=3600)
数据读取完成后，记得调用 scanner 的 close 方法
m=100, t=300
一般
是
是
﻿
错误日志的数量高于阈值
错误日志的数量 >=m，持续时间 t秒(300<=t<=3600)
人工排查
m=10, t=300 
一般
是
是
﻿
在队列中等待超时的 rpc 请求数量高于阈值
在队列中等待超时的 rpc 请求数量 >=m，持续时间 t秒(300<=t<=3600)
检查系统负载是否过高
m=100, t=300
一般
是
是
Spark
SPARK任务执行失败
集群存在失败SPARK任务数>m个
人工排查
m=0
一般
是
否
Kerberos
Kerberos响应时间持续高于阈值
Kerberos 响应时间>=m(单位毫秒)，持续时间t秒(300<=t<=604800)
人工排查
m=100,t=1800
严重
是
是
集群
自动伸缩策略执行失败
1. 集群绑定的子网弹性 IP 不足，扩容规则执行失败。
2. 预设扩容资源规格库存不足，扩容规则执行失败。
3. 当前账户资源剩余配额不足，扩容规则执行失败。
4. 账号余额不足，扩容规则执行失败。
5. 集群流程冲突。
6. 内部错误。
1. 更换同 vpc下的其他子网。
2. 可尝试更换充足的资源规格或 提交工单联系内部研发人员。
3. 建议调整资源配额或更换配额充足的机型，保证账户剩余配额充足。
4. 进行账户余额充值，保证账号余额充足。
5. 请稍后重试。
6. ﻿提交工单 联系内部研发人员。
-
严重
否
是
﻿
自动伸缩策略执行超时
1. 集群处于冷却窗口期，暂时无法扩缩容。
2. 当前设置过期重试时间过短，规则在过期重试时间内未触发扩缩容。
3. 集群状态处于不可扩容状态。
1. 调整规则的冷却时间。
2. 建议调长过期重试时间。
3. 稍后重试或 提交工单 联系内部研发人员。
-
严重
否
是
﻿
自动伸缩策略未触发
1. 未设置扩容资源规格，扩容规则无法触发。
2. 弹性资源已达到最大节点数限制，无法触发扩容。
3. 弹性资源已达到最小节点数限制，无法触发缩容。
4. 时间伸缩执行时间范围已到期。
5. 集群无弹性资源，缩容规则无法触发。
1. 添加伸缩规格配置，请至少设置一个弹性资源规格。
2. 弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数。
3. 弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数。
4. 如需继续使用该规则进行自动伸缩，请修改规则的生效时间范围。
5. 补充弹性资源后执行缩容规则。
-
一般
是
是
﻿
自动伸缩扩容部分成功
1. 资源库存量小于扩容数量，仅补充部分资源。
2. 扩容数量大于实际发货数量，仅补充部分资源。
3. 扩容弹性资源已达到最大节点数限制，扩容规则执行部分成功。
4. 缩容弹性资源已达到最小节点数限制，缩容规则执行部分成功。
5. 集群绑定的子网弹性 IP 不足，资源补足失败。
6. 预设扩容资源规格库存不足，资源补足失败。
7. 账号余额不足，资源补足失败。
1. 手动扩容库存充足资源，用于补充缺少需求资源。
2. 手动扩容库存充足资源，用于补充缺少需求资源。
3. 弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数。
4. 弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数。
5. 更换同 vpc 下的其他子网。
6. 可尝试更换充足的资源规格或 提交工单 联系内部研发人员。
7. 进行账户余额充值，保证账号余额充足。
-
一般
是
是
﻿
JVM OLD 区异常
JVM OLD 区异常
人工排查
1. old 区连续5分钟 80%或者
2. JVM 内存使用率达到90%
严重
是
是
﻿
服务角色健康状态超时
服务角色健康状态超时，持续时间t秒(180<=t<=604800)
服务角色健康状态连续分钟级超时。
处理方式：查看对应服务角色日志信息，根据日志处理。
t=300
一般
是
否
﻿
服务角色健康状态异常
服务角色健康状态异常，持续时间t秒(180<=t<=604800)
服务角色健康状态连续分钟级不可用。
处理方式：查看对应服务角色日志信息，根据日志处理。
t=300
严重
是
是
﻿
自动伸缩策略过期
自动伸缩策略过期
人工排查
/
一般
否
是
﻿
节点角色进程重启
节点角色进程重启
人工排查
/
一般
否
是
﻿
引导脚本执行失败
引导脚本执行失败
人工排查
/
一般
否
是
﻿
进程被OOMKiller kill
进程被 OOMKiller kill
1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。
2. 分析 Java 堆内存使用情况，调整 JVM 参数。
3. 增加节点内存。
/
严重
是
﻿