数据库智能管家 DBbrain 事件通知

事件通知功能是将 DBbrain 7 * 24小时异常诊断模块的诊断结果，通过渠道（目前支持短信、电话、微信、企业微信、邮件、站内信）通知给用户或通过webhook （目前支持企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook）通知给对应企业微信群、钉钉群、飞书群。
用户可根据需要配置通知中的诊断项、通知事件、方式、接收人员等。  
说明：
DBbrain 事件通知和腾讯云可观测平台告警有本质区别，腾讯云可观测平台指标告警是对特定指标的监控，当指标达到监控阈值时，通知客户对应的指标告警，DBbrain 事件通知是将 DBbrain 异常诊断模块中的诊断结果通知给用户。如需按照指标精确值通知，请使用腾讯云可观测平台告警系统。
如果您之前创建过腾讯云可观测平台【DBbrain 智能异常事件】，会跟本系统异常事件冲突，建议本次创建后，删除腾讯云可观测平台【DBbrain 智能异常事件】，否则会收到多个事件通知。
短信通知中的超链接有效期为7天，过期将无法访问，请尽快点击查看。
创建事件通知策略
1. 登录 DBbrain 控制台。
2. 在左侧导航选择监控告警 > 事件通知。
3. 在页面上方选择 MongoDB 数据库类型，选择发送策略页签，单击新建策略。
﻿
4. 根据界面提示配置策略。
4.1 选择数据库类型。
4.2 配置基础信息。
策略名称：必填，输入策略名称。命名规则：由中英文、数字、()_-（）组成，不能以下划线开头，长度在60个字符以内。
4.3 关联实例。
﻿
﻿
﻿
单击选择实例，在弹出的对话框中选择实例，单击确定。
﻿
﻿
﻿
选择是否开启动态关联实例：开启动态关联后，自动帮您选择所有实例，如您名下有新增实例，会动态加载进此策略配置中。
手动待关联的实例：支持选择一个或多个实例。
4.4 规则配置。
规则配置包括快速规则和自定义规则两种方式。
快速规则：DBbrain 提供了四个级别（通知级、告警级、严重级、致命级），每个级别包含对应的诊断事件内容，用户可选择四个级别中的任何一种，但不可修改其中的内容。
﻿
﻿
﻿
自定义规则：用户可根据需要灵活选择诊断事件名称、诊断事件级别和事件通知发送频率。
自定义规则默认勾选引用基础规则，可在基础规则上自由修改诊断事件名称、诊断事件级别和事件通知发送频率。若不需要引用基础规则，可取消勾选引用基础规则。
同时，支持单击添加指标继续添加诊断事件；支持单击删除，删除诊断事件。
﻿
﻿
﻿
4.5 事件通知配置。
﻿
﻿
通知模板包括选择已有通知模板和快速配置通知模板。
选择模板
单击选择模板，在弹出的对话框中选择模板名称，单击确定。该方式需在事件通知-通知模板页面已存在配置好的通知模板，具体操作请参见 管理通知模板。
快速配置
4.5.1 单击快速配置。
4.5.2 配置用户通知。
4.5.2.1 在快速配置通知模板对话框中，单击添加用户通知。
﻿
4.5.2.2 在弹出的配置用户通知对话框中，选择接收方式、接收时段和接收人等信息后，单击确定。
﻿
若想继续添加，请单击添加用户通知，最多允许配置5组用户通知。已添加的用户通知，支持编辑和删除操作。
﻿
﻿
﻿
4.5.2.3 在弹出的配置用户通知对话框中，选择接收方式、接收时段和接收人等信息后，单击确定。
4.5.3 配置 webhook URL。
说明：
可填写公网可访问到的企业微信群机器人 webhook、钉钉群机器人 webhook、飞书群机器人 webhook，DBbrain 事件通知将及时把告警信息推送到对应企业微信群、钉钉群、飞书群。
告警推送失败最多重试3次，每次推送请求的超时等待时间为1秒。
机器人均有消息发送限制，例如：企业微信群机器人每分钟最多发送20条，如果超过20条，消息会被丢弃。钉钉与飞书的限制请以其官网文档为准。
在接口回调区域，输入 webhook 接口 URL，并选择通知接收时段。
﻿
﻿
﻿
若需要配置多个 webhook URL，请单击添加接口回调，最多允许设置5个 webhook URL。已添加的 URL 通知，支持修改 URL 和删除操作。
4.5.4 在快速配置通知模板对话框中确认用户通知信息，选择是否保存该模板为通知模板，单击保存，保存模板。
﻿
若开启保存模板，保存后，该模板将在事件通知-通知模板页面展示，并可供下次直接引用。
若不开启保存模板，则该用户通知为一次性配置，后续查看策略详情时，也无法查看配置的用户信息。
5. 策略配置完成后，在页面下方单击保存，保存事件通知策略。
﻿
﻿
保存成功后，策略列表将展示已新建的策略名称且默认启动该策略。
﻿
管理事件策略、查看事件历史、管理事件通知模板
具体说明及操作请参见 事件通知。
MongoDB 支持的诊断事件说明
规则分类
诊断事件名称
通知级别划分
基础规则
WT 缓存使用率超过95
通知级：WT 缓存使用率超过95%，持续时间1分钟
告警级：WT 缓存使用率超过95%，持续时间5分钟
严重级：WT 缓存使用率超过95%，持续时间10分钟
致命级：WT 缓存使用率超过95%，持续时间30分钟
﻿
读等待队列>=64
通知级：读等待队列 >= 64，持续时间 >=1 分钟
告警级：读等待队列 >= 64，持续时间 >=10 分钟
严重级：读等待队列 >= 64，持续时间 >=30 分钟
致命级：读等待队列 >= 64，持续时间 >=60 分钟
﻿
活跃会话高
通知级：活跃会话 >= 2000
告警级：活跃会话 >= 100000
严重级：活跃会话 >= 400000
致命级：活跃会话 >= 900000
﻿
慢 SQL
通知级：发生慢 SQL，且 CPU 利用率 <= 40%
告警级：发生慢 SQL，且 CPU 利用率 > 40%，<= 60%
严重级：发生慢 SQL，且 CPU 利用率 > 60%，<= 80%
致命级：发生慢 SQL，且 CPU 利用率 > 80%
﻿
连接数利用率
通知级：连接数利用率 >= 60%
告警级：连接数利用率 >= 70%
严重级：连接数利用率 >= 80%
致命级：连接数利用率 >= 90%
﻿
Cache Dirty 超过20%
通知级：Cache Dirty 超过20%，持续时间1分钟
告警级：Cache Dirty 超过20%，持续时间5分钟
严重级：Cache Dirty 超过20%，持续时间10分钟
致命级：Cache Dirty 超过20%，持续时间30分钟
﻿
主从延迟
通知级：主从延迟 >= 1分钟
告警级：主从延迟 >= 10分钟
严重级：主从延迟 >= 30分钟
致命级：主从延迟 >= 60分钟
﻿
OpLog 保存时间
通知级：Oplog 保存时间 >= 120分钟且 < 480分钟
告警级：Oplog 保存时间 >= 60分钟且 < 120分钟
严重级：Oplog 保存时间 >= 30分钟且 < 60分钟
致命级：主 Oplog 保存时间 < 30分钟
﻿
节点入流量
通知级：节点入流量 >= 800M
告警级：节点入流量 >= 1000M
严重级：节点入流量 >= 1200M
致命级：节点入流量 >= 1500M
﻿
CPU 利用率
通知级：Cpu 利用率 >= 60%
告警级：Cpu 利用率 >= 80%
严重级：Cpu 利用率 >= 90%
致命级：Cpu 利用率 >= 95%
﻿
磁盘空间利用率
通知级：磁盘利用率 >= 60%
告警级：磁盘利用率 >= 80%
严重级：磁盘利用率 >= 90%
致命级：磁盘利用率 >= 95%
﻿
节点出流量
通知级：节点出流量 >= 800M
告警级：节点出流量 >= 1000M
严重级：节点出流量 >= 1200M
致命级：节点出流量 >= 1500M
﻿
内存利用率
通知级：内存利用率 >= 70%
告警级：内存利用率 >= 80%
严重级：内存利用率 >= 90%
致命级：内存利用率 >= 95%
﻿
写等待队列>=64
通知级：写等待队列 >= 64，持续时间 >= 1分钟
告警级：写等待队列 >= 64，持续时间 >= 10分钟
严重级：写等待队列 >= 64，持续时间 >= 30分钟
致命级：写等待队列 >= 64，持续时间 >= 60分钟
其他规则
连接性检查
致命级：无法连接数据库实例
﻿
节点内存超限
致命级：节点内存超限
﻿
节点 pageheap 内存过高
通知级：节点 pageheap 内存过高

规则分类	诊断事件名称	通知级别划分
基础规则	WT 缓存使用率超过95	通知级：WT 缓存使用率超过95%，持续时间1分钟告警级：WT 缓存使用率超过95%，持续时间5分钟严重级：WT 缓存使用率超过95%，持续时间10分钟致命级：WT 缓存使用率超过95%，持续时间30分钟
		读等待队列>=64	通知级：读等待队列 >= 64，持续时间 >=1 分钟告警级：读等待队列 >= 64，持续时间 >=10 分钟严重级：读等待队列 >= 64，持续时间 >=30 分钟致命级：读等待队列 >= 64，持续时间 >=60 分钟
		活跃会话高	通知级：活跃会话 >= 2000 告警级：活跃会话 >= 100000 严重级：活跃会话 >= 400000 致命级：活跃会话 >= 900000
		慢 SQL	通知级：发生慢 SQL，且 CPU 利用率 <= 40% 告警级：发生慢 SQL，且 CPU 利用率 > 40%，<= 60% 严重级：发生慢 SQL，且 CPU 利用率 > 60%，<= 80% 致命级：发生慢 SQL，且 CPU 利用率 > 80%
		连接数利用率	通知级：连接数利用率 >= 60% 告警级：连接数利用率 >= 70% 严重级：连接数利用率 >= 80% 致命级：连接数利用率 >= 90%
		Cache Dirty 超过20%	通知级：Cache Dirty 超过20%，持续时间1分钟告警级：Cache Dirty 超过20%，持续时间5分钟严重级：Cache Dirty 超过20%，持续时间10分钟致命级：Cache Dirty 超过20%，持续时间30分钟
		主从延迟	通知级：主从延迟 >= 1分钟告警级：主从延迟 >= 10分钟严重级：主从延迟 >= 30分钟致命级：主从延迟 >= 60分钟
		OpLog 保存时间	通知级：Oplog 保存时间 >= 120分钟且 < 480分钟告警级：Oplog 保存时间 >= 60分钟且 < 120分钟严重级：Oplog 保存时间 >= 30分钟且 < 60分钟致命级：主 Oplog 保存时间 < 30分钟
		节点入流量	通知级：节点入流量 >= 800M 告警级：节点入流量 >= 1000M 严重级：节点入流量 >= 1200M 致命级：节点入流量 >= 1500M
		CPU 利用率	通知级：Cpu 利用率 >= 60% 告警级：Cpu 利用率 >= 80% 严重级：Cpu 利用率 >= 90% 致命级：Cpu 利用率 >= 95%
		磁盘空间利用率	通知级：磁盘利用率 >= 60% 告警级：磁盘利用率 >= 80% 严重级：磁盘利用率 >= 90% 致命级：磁盘利用率 >= 95%
		节点出流量	通知级：节点出流量 >= 800M 告警级：节点出流量 >= 1000M 严重级：节点出流量 >= 1200M 致命级：节点出流量 >= 1500M
		内存利用率	通知级：内存利用率 >= 70% 告警级：内存利用率 >= 80% 严重级：内存利用率 >= 90% 致命级：内存利用率 >= 95%
		写等待队列>=64	通知级：写等待队列 >= 64，持续时间 >= 1分钟告警级：写等待队列 >= 64，持续时间 >= 10分钟严重级：写等待队列 >= 64，持续时间 >= 30分钟致命级：写等待队列 >= 64，持续时间 >= 60分钟
其他规则	连接性检查	致命级：无法连接数据库实例
		节点内存超限	致命级：节点内存超限
		节点 pageheap 内存过高	通知级：节点 pageheap 内存过高

事件通知

本页目录：

创建事件通知策略

管理事件策略、查看事件历史、管理事件通知模板

MongoDB 支持的诊断事件说明