配置动态阈值告警

最近更新时间:2024-05-29 17:58:12

我的收藏

操作场景

当业务系统具有明显周期性波动数据呈现突增突降趋势时,用户可以对关键指标设置动态阈值告警,以提高监控系统的敏感度和准确性,减少干扰和误报。应用场景示例请参见 动态阈值场景示例。
说明:
目前云服务器和负载均衡暂不支持动态阈值告警。

操作步骤

1. 进入 新建告警策略 页面。
2. 在告警条件触发条件中选择手动配置,阈值类型选择动态后,配置相关条件信息,配置说明如下:
配置项
说明
灵敏度
动态阈值的敏感度是从用户对指标检测的业务需求出发,对指标偏离合理区间的相对程度。选项包括:
高:指标偏离合理区间的容忍程度较低,用户接收告警量较多。
中:默认设置,指标偏离合理区间的容忍程度中等,用户接收告警量中等。
低:指标偏离合理区间的容忍程度较高,用户接收告警量较少。
条件设置
动态阈值的告警规则可以使用相同的告警规则,基于指标行为的上限和下限创建定制的阈值。 选项包括:
大于或小于:即指标小于动态阈值下边界或大于动态阈值上边界时检测为异常,例如在一定范围内波动的指标。
大于:即指标大于动态阈值上边界时检测为异常,例如 CPU 使用率一般只关注大于动态阈值上边界。
小于:即指标小于动态阈值下边界时检测为异常,例如业务成功数或成功率一般只关注小于动态阈值下边界。




动态阈值场景示例

场景一:指标呈现周期性波动

当指标呈现周期性波动时,设置较高的静态阈值,则无法检测出图中明显异常点;设置较低的静态阈值时,则大量的时间段会被错误检测为异常。该场景适合使用动态阈值检测,既能保证检测的准确性,也能避免重复告警对用户的骚扰。



场景二:指标呈现趋势性增长或下降

当指标呈现合理的增长或下降趋势时,如果使用静态阈值,将会在持续下降的时间内被检测是异常;如果使用动态阈值,合理范围会随着趋势自适应调整,当且仅当指标变化幅度明显过大时会被检测为异常。



场景三:指标呈现突增或突降趋势

当指标呈现突然增长或下降的变化时,如果使用静态阈值,则难以设置合理的恒定阈值,且当指标超出设定的阈值才被检测为异常;如果使用动态阈值,则可自动捕捉不同程度的突增或突降变化,对于指标变化幅度明显过大时会被检测为异常。
设置不同的灵敏度进而自动捕捉不同程度的变化幅度,进而触发告警。



建议使用动态阈值的指标

场景
指标
特点
饱和度
成功率、失败率、丢包率、流量命中率、出流使用率、查询拒绝率、带宽使用率
指标范围确定,通常位于0 - 100%之间。值具有特殊的场景意义,用户往往只关注阈值。例如磁盘使用率往往超过95%,用户才会真正的关心。该场景适合静态阈值或静态阈值结合动态阈值。
网络流量
网络入带宽、网络出带宽、网络入包量、网络出包量
指标通常随着时间变化而变化,指标范围不确定,一般指标波动幅度较大。该场景适合动态阈值。
延时
延时次数、延时距离、延时时长
指标波动幅度通常较小,指标范围不确定。该场景适合动态阈值。
其它
慢查询数、云数据库的线程数、redis 连接数、tcp 连接数、QPS 硬盘、IO 等待时间、临时表数量、全表扫描数、kafka 未消费信息数
该场景适合动态阈值。