操作场景
当业务系统具有明显周期性波动或数据呈现突增突降趋势时,用户可以对关键指标设置动态阈值告警,以提高监控系统的敏感度和准确性,减少干扰和误报。应用场景示例请参见 动态阈值场景示例。
说明:
目前云服务器和负载均衡暂不支持动态阈值告警。
操作步骤
1. 进入 新建告警策略 页面。
2. 在告警条件触发条件中选择手动配置,阈值类型选择动态后,配置相关条件信息,配置说明如下:
配置项 | 说明 |
灵敏度 | 动态阈值的敏感度是从用户对指标检测的业务需求出发,对指标偏离合理区间的相对程度。选项包括: 高:指标偏离合理区间的容忍程度较低,用户接收告警量较多。 中:默认设置,指标偏离合理区间的容忍程度中等,用户接收告警量中等。 低:指标偏离合理区间的容忍程度较高,用户接收告警量较少。 |
条件设置 | 动态阈值的告警规则可以使用相同的告警规则,基于指标行为的上限和下限创建定制的阈值。 选项包括: 大于或小于:即指标小于动态阈值下边界或大于动态阈值上边界时检测为异常,例如在一定范围内波动的指标。 大于:即指标大于动态阈值上边界时检测为异常,例如 CPU 使用率一般只关注大于动态阈值上边界。 小于:即指标小于动态阈值下边界时检测为异常,例如业务成功数或成功率一般只关注小于动态阈值下边界。 |
动态阈值场景示例
场景一:指标呈现周期性波动
当指标呈现周期性波动时,设置较高的静态阈值,则无法检测出图中明显异常点;设置较低的静态阈值时,则大量的时间段会被错误检测为异常。该场景适合使用动态阈值检测,既能保证检测的准确性,也能避免重复告警对用户的骚扰。
场景二:指标呈现趋势性增长或下降
当指标呈现合理的增长或下降趋势时,如果使用静态阈值,将会在持续下降的时间内被检测是异常;如果使用动态阈值,合理范围会随着趋势自适应调整,当且仅当指标变化幅度明显过大时会被检测为异常。
场景三:指标呈现突增或突降趋势
当指标呈现突然增长或下降的变化时,如果使用静态阈值,则难以设置合理的恒定阈值,且当指标超出设定的阈值才被检测为异常;如果使用动态阈值,则可自动捕捉不同程度的突增或突降变化,对于指标变化幅度明显过大时会被检测为异常。
设置不同的灵敏度进而自动捕捉不同程度的变化幅度,进而触发告警。
建议使用动态阈值的指标
场景 | 指标 | 特点 |
饱和度 | 成功率、失败率、丢包率、流量命中率、出流使用率、查询拒绝率、带宽使用率 | 指标范围确定,通常位于0 - 100%之间。值具有特殊的场景意义,用户往往只关注阈值。例如磁盘使用率往往超过95%,用户才会真正的关心。该场景适合静态阈值或静态阈值结合动态阈值。 |
网络流量 | 网络入带宽、网络出带宽、网络入包量、网络出包量 | 指标通常随着时间变化而变化,指标范围不确定,一般指标波动幅度较大。该场景适合动态阈值。 |
延时 | 延时次数、延时距离、延时时长 | 指标波动幅度通常较小,指标范围不确定。该场景适合动态阈值。 |
其它 | 慢查询数、云数据库的线程数、redis 连接数、tcp 连接数、QPS 硬盘、IO 等待时间、临时表数量、全表扫描数、kafka 未消费信息数 | 该场景适合动态阈值。 |