异常诊断

最近更新时间:2026-03-10 14:51:21

我的收藏
DBbrain 异常诊断功能对数据库运行指标进行 7×24 小时自动巡检,实时识别性能异常、资源瓶颈、慢查询等问题,并按严重程度分级展示,帮助 DBA 快速感知和处理数据库健康问题。

功能说明

异常诊断功能提供数据库实例的实时和历史异常事件监控,主要包括以下能力:
功能模块
说明
概览
展示所选时间范围内的整体运行状态趋势图。
实时 SQL
展示写请求数、读请求数、请求数等 SQL 执行趋势。
实时慢 SQL
展示慢 SQL 数量与 CPU 利用率的关联趋势,便于分析慢查询对资源的影响。
诊断提示 - 风险分布
按严重程度(致命/严重/告警/提示)统计近三小时的异常事件分布。
诊断提示 - 诊断详情
展示具体的诊断事件列表,包括等级、开始时间、诊断项、最后发生时间等。
诊断等级说明:
等级
颜色
说明
致命
红色
严重影响业务,需立即处理。
严重
橙色
存在较大风险,建议尽快处理。
告警
黄色
存在潜在风险,需关注。
提示
蓝色
一般性提示,可按需优化。

前提条件

当前账号具备目标实例的查看权限。
实例处于正常运行状态。

操作步骤

查看诊断信息

1. 登录 DBbrain 控制台
2. 在左侧导航栏,选择诊断优化
3. 在上方选择 PostgreSQL 数据库类型和实例 ID,选择异常诊断页签。
4. 在页面右侧选择查看实时或历史诊断信息。
5. 查看时间轴范围内的健康得分趋势图、诊断的异常事件和 SQL 趋势图
查看健康得分趋势图
单击趋势图中的任意时间点,显示该时间点的健康得分。

查看诊断事件条形图
鼠标悬停至诊断事件条形图时,将展示风险等级、概要和起止时间等信息,单击条形图可跳转至事件详情页面,可查看事件详情、现场描述、智能分析、优化建议等信息。查看事件详情的操作请参见 异常告警
将鼠标悬停在诊断事件时间轴上,上下滚动鼠标滑轮,可放大/缩小时间轴范围。

查看实时/历史 SQL 趋势图和实时/历史慢 SQL 趋势图
实时/历史 SQL:查看写请求数、读请求数、请求数的变化趋势。
实时/历史慢 SQL:查看慢 SQL 数量与 CPU 利用率(cpu_avg_used_rate)的关联曲线。
若慢 SQL 与 CPU 曲线同步上升,说明慢查询可能是 CPU 资源消耗的主因。

查看诊断提示

诊断事件显示等级分为健康、提示、告警、严重、致命。DBbrain 会定期(每10分钟)对实例进行健康巡检。
1. 登录 DBbrain 控制台
2. 在左侧导航栏,选择诊断优化
3. 在上方选择 PostgreSQL 数据库类型和实例 ID,选择异常诊断页签。
4. 在页面右侧选择查看实时或历史诊断信息。
实时:选择实时,展示近三小时的风险分布和诊断详情。
历史:选择历史,展示已选时间段的风险分布和诊断详情。
5. 查看已选时间范围的诊断提示。
查看风险分布
查看致命、严重、告警、提示各等级的事件占比。
查看诊断事件详情
诊断详情中,单击具体的事件告警所在行,或者鼠标悬停至事件告警上,单击查看,进入事件详情页面,查看事件详情。
事件详情主要包括事件详情、现场描述、智能分析、优化建议等信息。诊断类型不同展示的事件详情不同,请以实际展示为准。
事件详情:包括诊断项、起止时间、风险等级、概要等信息。
AI 洞察:展示各节点的洞察结果。
现场描述:异常事件(或健康巡检事件)的外在表现现象的快照和性能趋势等信息。
优化建议:给出异常诊断事件的优化建议。
忽略/取消忽略告警
说明:
该功能仅针对诊断项为非“健康巡检”的异常告警。
诊断详情中,鼠标悬停至事件告警上,单击忽略,可选择忽略本条忽略此类型,单击确定
忽略本条:仅忽略本条告警。
忽略此类型:忽略后,由相同根因产生的异常告警也将被忽略。
已被忽略的诊断事件,将会被置为灰色。
若需取消忽略,单击取消忽略,单击确定
若需要展示已忽略的告警,可勾选显示忽略
单击忽略管理,可查看已忽略内容和已忽略类型。
支持进入事件详情页,在右上方单击忽略取消忽略

诊断项详细说明

诊断项为智能诊断的项目,其类别包括性能、可用性、可靠性、可维护性四类,每个诊断项仅属于一个类别。
诊断项名称
诊断项类别
说明
风险等级划分
执行中慢会话
性能
存在执行中未结束的慢会话
提示
死锁
可靠性
数据库发生死锁
致命
磁盘空间利用率
可靠性
磁盘利用率过高
致命:95 < 磁盘利用率
严重:90 < 磁盘利用率 ≤ 95
告警:85 < 磁盘利用率 ≤ 90
提示:60 < 磁盘利用率 ≤ 85
内存利用率
性能
内存利用率过高
致命:100 < 内存利用率
严重:95 < 内存利用率 ≤ 100
告警:90 < 内存利用率 ≤ 95
CPU 利用率
性能
CPU 利用率过高
致命:80 < CPU 利用率
严重:60 < CPU 利用率 ≤ 80
告警:40 < CPU 利用率 ≤ 60
事务未提交
性能
存在过长时间的未提交的事务
致命:60s < 事务未提交时间
严重:30s < 事务未提交时间 ≤ 60s
告警:事务未提交时间 ≤ 30s
长事务
性能
存在持续时间较长的事务
致命:60s < 事务持续时间
严重:30s < 事务持续时间 ≤ 60s
复制延迟
可用性
主从复制延迟
严重:600s < 延迟时间
告警:延迟时间 ≤ 600s