弹性 MapReduce 实例事件

功能介绍
实例事件中包含事件列表和事件策略。
事件列表：记录实例发生的关键变化事件或异常事件。
事件策略：支持根据业务情况自定义事件监控触发策略。
查看事件列表
1. 登录 EMR Serverless TCBase 控制台，从实例列表中找到需要查看的实例，单击监控进入监控告警页。
2. 在监控告警页中选择实例事件，可直接查看当前实例所有操作事件。
严重程度说明如下：
致命：节点或服务的异常事件，人工干预处理，否则服务不可用，这类事件可能持续一段时间。
严重：暂时未造成服务或节点不可用问题，属于预警类，如果一直不处理会产生致命事件。
一般：记录集群发生的常规事件，一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录，同时可查看事件记录相关指标、日志或现场。
设置事件策略
1. 登录 EMR Serverless TCBase 控制台，从实例列表中找到需要查看的实例，单击监控进入监控告警页。
2. 在监控告警页中选择事件策略，可以自定义设置事件监控触发策略。
3. 事件配置列表包含：事件名、事件发现策略、严重程度（致命/严重/一般）、开启监控，支持修改和保存。
4. 事件发现策略分两类：一类事件为系统固定策略事件，不支持用户修改；另一类事件会因客户业务标准的不同而变化，支持用户设置。
5. 事件策略可自定义是否开启事件监控，已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启，部分事件默认开启且不可关闭。具体规则如下：
类别
事件名称
事件含义
建议&措施
默认值
严重程度
允许关闭
默认开启
节点
CPU 利用率连续高于阈值
机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
实例
节点角色进程重启
节点角色进程重启
人工排查
-
一般
否
是
﻿
进程被 OOMKiller kill
进程被 OOMKiller kill
1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。
2. 分析 Java 堆内存使用情况，调整 JVM 参数。
3. 增加节点内存。
-
严重
是
是
TCBase
数据库访问不可用
PostgreSQL 数据库连续 n 次探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
API 网关访问不可用
API 网关（Kong）持续探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
数据库 HA 主从切换
PostgreSQL 发生主从切换
通常可自愈，若持续出现请提单咨询
-
严重
是
是
﻿
HA 集群无 Leader
检测周期内持续无 PostgreSQL Leader 节点，数据库不可写入
通常可自愈，若持续出现请提单咨询
no_leader_count=2
致命
是
是
﻿
主从复制延迟过高
PostgreSQL 主从复制延迟持续超过阈值，从库数据一致性存在风险
检查主库写入压力
lag_threshold_sec=30,sample_count=2
严重
是
是
﻿
WAL Receiver 断流
从库 WAL Receiver 不是 streaming 状态，主从复制中断
通常可自愈，若持续出现请提单咨询
sample_count=2
严重
是
是
﻿
Patroni 节点状态异常
Patroni 节点状态异常，可能影响 PostgreSQL HA 功能
通常可自愈，若持续出现请提单咨询
sample_count=2
严重
是
是
﻿
ETCD 不可用
ETCD 集群持续探活异常，可能影响 PostgreSQL HA 功能
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
数据库连接数过高
PostgreSQL 连接使用率持续超过阈值，可能导致新连接被拒绝
检查连接泄漏、增大 max_connections
usage_pct=80, sample_count=2
严重
是
是
﻿
死锁频繁发生
检测周期内 PostgreSQL 死锁增量超过阈值，存在并发事务冲突
分析查询模式、检查锁顺序、优化事务隔离级别
deadlock_count=5
一般
是
否
﻿
缓存命中率过低
PostgreSQL 缓存命中率持续低于阈值，大量磁盘读取，性能下降
增大 shared_buffers、分析查询模式、添加索引
hit_ratio_threshold=90， sample_count=2
一般
是
否
﻿
认证服务不可用
TCBase 认证服务持续探活失败，用户认证/注册/JWT 签发功能受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
REST API 服务不可用
PostgREST 组件持续探活失败，REST API 相关请求可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
Realtime 服务不可用
Realtime 实时服务持续探活失败，WebSocket 订阅和实时推送可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
Storage 服务不可用
Storage 对象存储服务持续探活失败，文件上传/下载/S3 协议可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
严重
是
是
﻿
组件运行状态异常
TCBASE 某个组件持续探活失败
通常可自愈，若持续出现请提单咨询
failure_count=3
一般
是
是
﻿
数据库 Ping 延迟过高
数据库 Ping 延迟持续超过阈值，可能 I/O 瓶颈或高负载
检测数据库请求压力是否过大
latency_threshold=100ms,sample_count=2
一般
是
否
﻿
数据库容量预警
机器磁盘占用超过阈值，需要关注存储容量
删除非必要的数据
size_threshold=10737418240 (10GB)
一般
是
否
﻿
HAProxy 不可用
HAProxy 代理持续探活失败，通过 HAProxy 的数据库访问可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
致命
是
是
﻿
Studio 管理面板不可用
Studio 管理面板持续探活失败，Web 管理界面可能会受到影响
通常可自愈，若持续出现请提单咨询
failure_count=3
一般
是
是

类别	事件名称	事件含义	建议&措施	默认值	严重程度	允许关闭	默认开启
节点	CPU 利用率连续高于阈值	机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）	节点扩容或升配	m=85, t=1800	严重	是	是
实例	节点角色进程重启	节点角色进程重启	人工排查	-	一般	否	是
实例		进程被 OOMKiller kill	进程被 OOMKiller kill	1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。 2. 分析 Java 堆内存使用情况，调整 JVM 参数。 3. 增加节点内存。	-	严重	是	是
TCBase	数据库访问不可用	PostgreSQL 数据库连续 n 次探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		API 网关访问不可用	API 网关（Kong）持续探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		数据库 HA 主从切换	PostgreSQL 发生主从切换	通常可自愈，若持续出现请提单咨询	-	严重	是	是
		HA 集群无 Leader	检测周期内持续无 PostgreSQL Leader 节点，数据库不可写入	通常可自愈，若持续出现请提单咨询	no_leader_count=2	致命	是	是
		主从复制延迟过高	PostgreSQL 主从复制延迟持续超过阈值，从库数据一致性存在风险	检查主库写入压力	lag_threshold_sec=30,sample_count=2	严重	是	是
		WAL Receiver 断流	从库 WAL Receiver 不是 streaming 状态，主从复制中断	通常可自愈，若持续出现请提单咨询	sample_count=2	严重	是	是
		Patroni 节点状态异常	Patroni 节点状态异常，可能影响 PostgreSQL HA 功能	通常可自愈，若持续出现请提单咨询	sample_count=2	严重	是	是
		ETCD 不可用	ETCD 集群持续探活异常，可能影响 PostgreSQL HA 功能	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		数据库连接数过高	PostgreSQL 连接使用率持续超过阈值，可能导致新连接被拒绝	检查连接泄漏、增大 max_connections	usage_pct=80, sample_count=2	严重	是	是
		死锁频繁发生	检测周期内 PostgreSQL 死锁增量超过阈值，存在并发事务冲突	分析查询模式、检查锁顺序、优化事务隔离级别	deadlock_count=5	一般	是	否
		缓存命中率过低	PostgreSQL 缓存命中率持续低于阈值，大量磁盘读取，性能下降	增大 shared_buffers、分析查询模式、添加索引	hit_ratio_threshold=90， sample_count=2	一般	是	否
		认证服务不可用	TCBase 认证服务持续探活失败，用户认证/注册/JWT 签发功能受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		REST API 服务不可用	PostgREST 组件持续探活失败，REST API 相关请求可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		Realtime 服务不可用	Realtime 实时服务持续探活失败，WebSocket 订阅和实时推送可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		Storage 服务不可用	Storage 对象存储服务持续探活失败，文件上传/下载/S3 协议可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	严重	是	是
		组件运行状态异常	TCBASE 某个组件持续探活失败	通常可自愈，若持续出现请提单咨询	failure_count=3	一般	是	是
		数据库 Ping 延迟过高	数据库 Ping 延迟持续超过阈值，可能 I/O 瓶颈或高负载	检测数据库请求压力是否过大	latency_threshold=100ms,sample_count=2	一般	是	否
		数据库容量预警	机器磁盘占用超过阈值，需要关注存储容量	删除非必要的数据	size_threshold=10737418240 (10GB)	一般	是	否
		HAProxy 不可用	HAProxy 代理持续探活失败，通过 HAProxy 的数据库访问可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	致命	是	是
		Studio 管理面板不可用	Studio 管理面板持续探活失败，Web 管理界面可能会受到影响	通常可自愈，若持续出现请提单咨询	failure_count=3	一般	是	是

实例事件

本页目录：

功能介绍

查看事件列表

设置事件策略