DBbrain 异常诊断功能对数据库运行指标进行 7×24 小时自动巡检,实时识别性能异常、资源瓶颈、慢查询等问题,并按严重程度分级展示,帮助 DBA 快速感知和处理数据库健康问题。
功能说明
异常诊断功能提供数据库实例的实时和历史异常事件监控,主要包括以下能力:
功能模块 | 说明 |
概览 | 展示所选时间范围内的整体运行状态趋势图。 |
实时 SQL | 展示写请求数、读请求数、请求数等 SQL 执行趋势。 |
实时慢 SQL | 展示慢 SQL 数量与 CPU 利用率的关联趋势,便于分析慢查询对资源的影响。 |
诊断提示 - 风险分布 | 按严重程度(致命/严重/告警/提示)统计近三小时的异常事件分布。 |
诊断提示 - 诊断详情 | 展示具体的诊断事件列表,包括等级、开始时间、诊断项、最后发生时间等。 |
诊断等级说明:
等级 | 颜色 | 说明 |
致命 | 红色 | 严重影响业务,需立即处理。 |
严重 | 橙色 | 存在较大风险,建议尽快处理。 |
告警 | 黄色 | 存在潜在风险,需关注。 |
提示 | 蓝色 | 一般性提示,可按需优化。 |
前提条件
当前账号具备目标实例的查看权限。
实例处于正常运行状态。
操作步骤
查看诊断信息
1. 登录 DBbrain 控制台。
2. 在左侧导航栏,选择诊断优化。
3. 在上方选择 PostgreSQL 数据库类型和实例 ID,选择异常诊断页签。
4. 在页面右侧选择查看实时或历史诊断信息。
5. 查看时间轴范围内的健康得分趋势图、诊断的异常事件和 SQL 趋势图。
查看健康得分趋势图
单击趋势图中的任意时间点,显示该时间点的健康得分。

查看诊断事件条形图
将鼠标悬停在诊断事件时间轴上,上下滚动鼠标滑轮,可放大/缩小时间轴范围。

查看实时/历史 SQL 趋势图和实时/历史慢 SQL 趋势图
实时/历史 SQL:查看写请求数、读请求数、请求数的变化趋势。
实时/历史慢 SQL:查看慢 SQL 数量与 CPU 利用率(cpu_avg_used_rate)的关联曲线。
若慢 SQL 与 CPU 曲线同步上升,说明慢查询可能是 CPU 资源消耗的主因。
查看诊断提示
诊断事件显示等级分为健康、提示、告警、严重、致命。DBbrain 会定期(每10分钟)对实例进行健康巡检。
1. 登录 DBbrain 控制台。
2. 在左侧导航栏,选择诊断优化。
3. 在上方选择 PostgreSQL 数据库类型和实例 ID,选择异常诊断页签。
4. 在页面右侧选择查看实时或历史诊断信息。
实时:选择实时,展示近三小时的风险分布和诊断详情。
历史:选择历史,展示已选时间段的风险分布和诊断详情。
5. 查看已选时间范围的诊断提示。
查看风险分布
查看致命、严重、告警、提示各等级的事件占比。
查看诊断事件详情
在诊断详情中,单击具体的事件告警所在行,或者鼠标悬停至事件告警上,单击查看,进入事件详情页面,查看事件详情。
事件详情主要包括事件详情、现场描述、智能分析、优化建议等信息。诊断类型不同展示的事件详情不同,请以实际展示为准。
事件详情:包括诊断项、起止时间、风险等级、概要等信息。
AI 洞察:展示各节点的洞察结果。
现场描述:异常事件(或健康巡检事件)的外在表现现象的快照和性能趋势等信息。
优化建议:给出异常诊断事件的优化建议。
忽略/取消忽略告警
说明:
该功能仅针对诊断项为非“健康巡检”的异常告警。
在诊断详情中,鼠标悬停至事件告警上,单击忽略,可选择忽略本条、忽略此类型,单击确定。
忽略本条:仅忽略本条告警。
忽略此类型:忽略后,由相同根因产生的异常告警也将被忽略。
已被忽略的诊断事件,将会被置为灰色。
若需取消忽略,单击取消忽略,单击确定。
若需要展示已忽略的告警,可勾选显示忽略。
单击忽略管理,可查看已忽略内容和已忽略类型。
支持进入事件详情页,在右上方单击忽略或取消忽略。
诊断项详细说明
诊断项为智能诊断的项目,其类别包括性能、可用性、可靠性、可维护性四类,每个诊断项仅属于一个类别。
诊断项名称 | 诊断项类别 | 说明 | 风险等级划分 |
执行中慢会话 | 性能 | 存在执行中未结束的慢会话 | 提示 |
死锁 | 可靠性 | 数据库发生死锁 | 致命 |
磁盘空间利用率 | 可靠性 | 磁盘利用率过高 | 致命:95 < 磁盘利用率 严重:90 < 磁盘利用率 ≤ 95 告警:85 < 磁盘利用率 ≤ 90 提示:60 < 磁盘利用率 ≤ 85 |
内存利用率 | 性能 | 内存利用率过高 | 致命:100 < 内存利用率 严重:95 < 内存利用率 ≤ 100 告警:90 < 内存利用率 ≤ 95 |
CPU 利用率 | 性能 | CPU 利用率过高 | 致命:80 < CPU 利用率 严重:60 < CPU 利用率 ≤ 80 告警:40 < CPU 利用率 ≤ 60 |
事务未提交 | 性能 | 存在过长时间的未提交的事务 | 致命:60s < 事务未提交时间 严重:30s < 事务未提交时间 ≤ 60s 告警:事务未提交时间 ≤ 30s |
长事务 | 性能 | 存在持续时间较长的事务 | 致命:60s < 事务持续时间 严重:30s < 事务持续时间 ≤ 60s |
复制延迟 | 可用性 | 主从复制延迟 | 严重:600s < 延迟时间 告警:延迟时间 ≤ 600s |