功能介绍
实例事件中包含事件列表和事件策略。
事件列表:记录实例发生的关键变化事件或异常事件。
事件策略:支持根据业务情况自定义事件监控触发策略。
查看事件列表
1. 登录 EMR Serverless TCBase 控制台,从实例列表中找到需要查看的实例,单击监控进入监控告警页。
2. 在监控告警页中选择实例事件,可直接查看当前实例所有操作事件。
严重程度说明如下:
致命:节点或服务的异常事件,人工干预处理,否则服务不可用,这类事件可能持续一段时间。
严重:暂时未造成服务或节点不可用问题,属于预警类,如果一直不处理会产生致命事件。
一般:记录集群发生的常规事件,一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录,同时可查看事件记录相关指标、日志或现场。
设置事件策略
1. 登录 EMR Serverless TCBase 控制台,从实例列表中找到需要查看的实例,单击监控进入监控告警页。
2. 在监控告警页中选择事件策略,可以自定义设置事件监控触发策略。
3. 事件配置列表包含:事件名、事件发现策略、严重程度(致命/严重/一般)、开启监控,支持修改和保存。
4. 事件发现策略分两类:一类事件为系统固定策略事件,不支持用户修改;另一类事件会因客户业务标准的不同而变化,支持用户设置。
5. 事件策略可自定义是否开启事件监控,已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启,部分事件默认开启且不可关闭。具体规则如下:
类别 | 事件名称 | 事件含义 | 建议&措施 | 默认值 | 严重程度 | 允许关闭 | 默认开启 |
节点 | CPU 利用率连续高于阈值 | 机器 CPU 利用率 >= m,持续时间 t 秒(300<=t<=2592000) | 节点扩容或升配 | m=85, t=1800 | 严重 | 是 | 是 |
实例 | 节点角色进程重启 | 节点角色进程重启 | 人工排查 | - | 一般 | 否 | 是 |
| 进程被 OOMKiller kill | 进程被 OOMKiller kill | 1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。 2. 分析 Java 堆内存使用情况,调整 JVM 参数。 3. 增加节点内存。 | - | 严重 | 是 | 是 |
TCBase | 数据库访问不可用 | PostgreSQL 数据库连续 n 次探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| API 网关访问不可用 | API 网关(Kong)持续探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| 数据库 HA 主从切换 | PostgreSQL 发生主从切换 | 通常可自愈,若持续出现请提单咨询 | - | 严重 | 是 | 是 |
| HA 集群无 Leader | 检测周期内持续无 PostgreSQL Leader 节点,数据库不可写入 | 通常可自愈,若持续出现请提单咨询 | no_leader_count=2 | 致命 | 是 | 是 |
| 主从复制延迟过高 | PostgreSQL 主从复制延迟持续超过阈值,从库数据一致性存在风险 | 检查主库写入压力 | lag_threshold_sec=30,sample_count=2 | 严重 | 是 | 是 |
| WAL Receiver 断流 | 从库 WAL Receiver 不是 streaming 状态,主从复制中断 | 通常可自愈,若持续出现请提单咨询 | sample_count=2 | 严重 | 是 | 是 |
| Patroni 节点状态异常 | Patroni 节点状态异常,可能影响 PostgreSQL HA 功能 | 通常可自愈,若持续出现请提单咨询 | sample_count=2 | 严重 | 是 | 是 |
| ETCD 不可用 | ETCD 集群持续探活异常,可能影响 PostgreSQL HA 功能 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| 数据库连接数过高 | PostgreSQL 连接使用率持续超过阈值,可能导致新连接被拒绝 | 检查连接泄漏、增大 max_connections | usage_pct=80, sample_count=2 | 严重 | 是 | 是 |
| 死锁频繁发生 | 检测周期内 PostgreSQL 死锁增量超过阈值,存在并发事务冲突 | 分析查询模式、检查锁顺序、优化事务隔离级别 | deadlock_count=5 | 一般 | 是 | 否 |
| 缓存命中率过低 | PostgreSQL 缓存命中率持续低于阈值,大量磁盘读取,性能下降 | 增大 shared_buffers、分析查询模式、添加索引 | hit_ratio_threshold=90, sample_count=2 | 一般 | 是 | 否 |
| 认证服务不可用 | TCBase 认证服务持续探活失败,用户认证/注册/JWT 签发功能受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| REST API 服务不可用 | PostgREST 组件持续探活失败,REST API 相关请求可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| Realtime 服务不可用 | Realtime 实时服务持续探活失败,WebSocket 订阅和实时推送可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| Storage 服务不可用 | Storage 对象存储服务持续探活失败,文件上传/下载/S3 协议可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 严重 | 是 | 是 |
| 组件运行状态异常 | TCBASE 某个组件持续探活失败 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 一般 | 是 | 是 |
| 数据库 Ping 延迟过高 | 数据库 Ping 延迟持续超过阈值,可能 I/O 瓶颈或高负载 | 检测数据库请求压力是否过大 | latency_threshold=100ms,sample_count=2 | 一般 | 是 | 否 |
| 数据库容量预警 | 机器磁盘占用超过阈值,需要关注存储容量 | 删除非必要的数据 | size_threshold=10737418240 (10GB) | 一般 | 是 | 否 |
| HAProxy 不可用 | HAProxy 代理持续探活失败,通过 HAProxy 的数据库访问可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 致命 | 是 | 是 |
| Studio 管理面板不可用 | Studio 管理面板持续探活失败,Web 管理界面可能会受到影响 | 通常可自愈,若持续出现请提单咨询 | failure_count=3 | 一般 | 是 | 是 |