事件通知功能是将 DBbrain 7 * 24小时异常诊断模块的诊断结果,通过渠道(目前支持短信、电话、微信、企业微信、邮件、站内信)通知给用户或通过webhook (目前支持企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook)通知给对应企业微信群、钉钉群、飞书群。
用户可根据需要配置通知中的诊断项、通知事件、方式、接收人员等。
说明:
DBbrain 事件通知和腾讯云可观测平台告警有本质区别,腾讯云可观测平台指标告警是对特定指标的监控,当指标达到监控阈值时,通知客户对应的指标告警,DBbrain 事件通知是将 DBbrain 异常诊断模块中的诊断结果通知给用户。如需按照指标精确值通知,请使用腾讯云可观测平台告警系统。
如果您之前创建过腾讯云可观测平台【DBbrain 智能异常事件】,会跟本系统异常事件冲突,建议本次创建后,删除腾讯云可观测平台【DBbrain 智能异常事件】,否则会收到多个事件通知。
创建事件通知策略
1. 登录 DBbrain 控制台。
2. 在左侧导航选择监控告警 > 事件通知。
3. 在页面上方选择 MongoDB 数据库类型,选择发送策略页签,单击新建策略。
4. 根据界面提示配置策略。
4.1 选择数据库类型。
4.2 配置基础信息。
策略名称:必填,输入策略名称。命名规则:由中英文、数字、()_-()组成,不能以下划线开头,长度在60个字符以内。
4.3 关联实例。
单击选择实例,在弹出的对话框中选择实例,单击确定。
选择是否开启动态关联实例:开启动态关联后,自动帮您选择所有实例,如您名下有新增实例,会动态加载进此策略配置中。
手动待关联的实例:支持选择一个或多个实例。
4.4 规则配置。
规则配置包括快速规则和自定义规则两种方式。
快速规则:DBbrain 提供了四个级别(通知级、告警级、严重级、致命级),每个级别包含对应的诊断事件内容,用户可选择四个级别中的任何一种,但不可修改其中的内容。
自定义规则:用户可根据需要灵活选择诊断事件名称、诊断事件级别和事件通知发送频率。
自定义规则默认勾选引用基础规则,可在基础规则上自由修改诊断事件名称、诊断事件级别和事件通知发送频率。若不需要引用基础规则,可去勾选引用基础规则。
同时,支持单击添加指标继续添加诊断事件;支持单击删除,删除诊断事件。
4.5 事件通知配置。
通知模板包括选择已有通知模板和快速配置通知模板。
选择模板
快速配置
4.5.1 单击快速配置。
4.5.2 配置用户通知。
4.5.2.1 在快速配置通知模板对话框中,单击添加用户通知。
4.5.2.2 在弹出的配置用户通知对话框中,选择接收方式、接收时段和接收人等信息后,单击确定。
若想继续添加,请单击添加用户通知,最多允许配置5组用户通知。已添加的用户通知,支持编辑和删除操作。
4.5.3 配置 webhook URL。
说明:
可填写公网可访问到的企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook,DBbrain 事件通知将及时把告警信息推送到对应企业微信群、钉钉群、飞书群。
告警推送失败最多重试3次,每次推送请求的超时等待时间为1秒。
机器人均有消息发送限制,例如:企业微信群机器人每分钟最多发送20条,如果超过20条,消息会被丢弃。钉钉与飞书的限制请以其官网文档为准。
在接口回调区域,输入 webhook 接口 URL,并选择通知接收时段。
若需要配置多个 webhook url,请单击添加接口回调,最多允许设置5个 webhook URL。已添加的 URL 通知,支持修改 URL 和删除操作。
4.5.4 在快速配置通知模板对话框中确认用户通知信息,选择是否保存该模板为通知模板,单击保存。
若开启保存模板,保存后,该模板将在事件通知-通知模板页面展示,并可供下次直接引用。
若不开启保存模板,则该用户通知为一次性配置,后续查看策略详情时,也无法查看配置的用户信息。
5. 策略配置完成后,在页面下方单击保存。
保存成功后,策略列表将展示已新建的策略名称且默认启动该策略。
管理事件策略、查看事件历史、管理事件通知模板
MongDB 支持的诊断事件说明
规则分类 | 诊断事件名称 | 通知级别划分 |
基础规则 | WT 缓存使用率超过95 | 通知级:WT 缓存使用率超过95%,持续时间1分钟 告警级:WT 缓存使用率超过95%,持续时间5分钟 严重级:WT 缓存使用率超过95%,持续时间10分钟 致命级:WT 缓存使用率超过95%,持续时间30分钟 |
| 读等待队列>=64 | 通知级:读等待队列>=64,持续时间>=1分钟 告警级:读等待队列>=64,持续时间>=10分钟 严重级:读等待队列>=64,持续时间>=30分钟 致命级:读等待队列>=64,持续时间>=60分钟 |
| 活跃会话高 | 通知级:活跃会话>=2000 告警级:活跃会话>=100000 严重级:活跃会话>=400000 致命级:活跃会话>=900000 |
| 慢 SQL | 通知级:发生慢 SQL,且 CPU 利用率<=40% 告警级:发生慢 SQL,且 CPU 利用率>40%,<=60% 严重级:发生慢 SQL,且 CPU 利用率>60%,<=80% 致命级:发生慢 SQL,且 CPU 利用率>80% |
| 连接数利用率 | 通知级:连接数利用率>=60% 告警级:连接数利用率>=70% 严重级:连接数利用率>=80% 致命级:连接数利用率>=90% |
| Cache Dirty 超过20% | 通知级:Cache Dirty 超过20%,持续时间1分钟 告警级:Cache Dirty 超过20%,持续时间5分钟 严重级:Cache Dirty 超过20%,持续时间10分钟 致命级:Cache Dirty 超过20%,持续时间30分钟 |
| 主从延迟 | 通知级:主从延迟>=1分钟 告警级:主从延迟>=10分钟 严重级:主从延迟>=30分钟 致命级:主从延迟>=60分钟 |
| OpLog 保存时间 | 通知级:Oplog 保存时间>=120分钟且<480分钟 告警级:Oplog 保存时间>=60分钟且<120分钟 严重级:Oplog 保存时间>=30分钟且<60分钟 致命级:主 Oplog 保存时间<30分钟 |
| 节点入流量 | 通知级:节点入流量>=800M 告警级:节点入流量>=1000M 严重级:节点入流量>=1200M 致命级:节点入流量>=1500M |
| CPU 利用率 | 通知级:Cpu 利用率>=60% 告警级:Cpu 利用率>=80% 严重级:Cpu 利用率>=90% 致命级:Cpu 利用率>=95% |
| 磁盘空间利用率 | 通知级:磁盘利用率>=60% 告警级:磁盘利用率>=80% 严重级:磁盘利用率>=90% 致命级:磁盘利用率>=95% |
| 节点出流量 | 通知级:节点出流量>=800M 告警级:节点出流量>=1000M 严重级:节点出流量>=1200M 致命级:节点出流量>=1500M |
| 内存利用率 | 通知级:内存利用率>=70% 告警级:内存利用率>=80% 严重级:内存利用率>=90% 致命级:内存利用率>=95% |
| 写等待队列>=64 | 通知级:写等待队列>=64,持续时间>=1分钟 告警级:写等待队列>=64,持续时间>=10分钟 严重级:写等待队列>=64,持续时间>=30分钟 致命级:写等待队列>=64,持续时间>=60分钟 |
其他规则 | 连接性检查 | 致命级:无法连接数据库实例 |
| 节点内存超限 | 致命级:节点内存超限 |
| 节点 pageheap 内存过高 | 通知级:节点 pageheap 内存过高 |