NodeProblemDetectorPlus(节点监测)

最近更新时间:2026-04-20 11:24:12

我的收藏

组件介绍

组件详情请参见 NodeProblemDetectorPlus 说明

变更记录

发布时间
版本号
变更内容
限制和影响
2026-04-20
1.1.4
1. GPU XID 检测补全:warningXid 新增 XID 13,31,43,45,63,68,94,110,120,137 共 10 个错误码,对齐最新 NVIDIA XID 分类标准,命中后触发 GPUXIDWarningError 永久 Condition。
2. 新增 SRAM Aggregate ECC 错误检测:优先使用 GetSramEccErrorStatus API(Ampere+ 架构),覆盖 nvidia-smi 输出的全部 SRAM ECC 指标(Uncorrectable Parity、SEC-DED、Aggregate Sources 等);Ampere 之前架构回退到 GetMemoryErrorCounter 方式。新增 GPUEccModeError Condition 检测 ECC 模式关闭。
3. GPU 非永久性 Condition 自动恢复:当 NvlinkError、TempError、PowerError 等可恢复告警在后续检查周期中消失时,自动将 Condition 从 True 恢复为 False。
4. StuckProcess 监控修复:修复 StuckProcess Condition 反复翻转 True/False 的问题,包括超时被 SIGKILL 后误返回 OK、两条规则共享 checkpoint 文件互相覆盖、无 D 状态进程时 checkpoint 未清理导致 PID 回收误报。
5. StuckProcess checkpoint 防误清:新增连续空扫描阈值(默认 2 次),防止 IO 压力下单次 /proc 扫描不完整时过早清除 checkpoint。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2026-03-26
1.1.3
1. GPU 掉卡检测增强:GetUUID 后增加 GetTemperature 二次探测半掉卡场景;多个 NVML API 返回 GPU_IS_LOST 时汇总判定为 DeviceLost 永久错误;Power 滑动窗口基于实际采样次数计算阈值而非假设 1 秒/次。
2. ECC 检测补全:新增 SRAM(L2 Cache、Register File)不可纠正错误检测,解决只查 DRAM 导致 SRAM 错误遗漏的问题;新增 GPUEccModeError condition 检测 ECC 模式被关闭。
3. StuckProcess 监控全面修复:修复 PID 复用误报、/proc/PID/stat 解析错位、cgroup v2 不兼容、containerd 节点硬编码 docker inspect 等 9 个缺陷。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2026-03-10
1.1.2
1. 增加日志文件发现的重试机制,避免因临时不可用导致启动失败。
2. 增加候选日志路径回退机制,自动适配不同 Linux 发行版。
3. 改善错误处理和日志输出,便于问题排查。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2026-01-20
1.1.1
问题修复:
1. 修复 GPU 卡异常掉线检测不准确的问题。
2. 修复 systemd_ops 检测日志时间格式匹配不准确的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2026-01-13
1.1.0
主要功能变更:
1. 新增 GPU 硬件监控:支持温度、功率、NVLink、ECC 错误、行重映射、退役页、PCIe 等全面检测。
2. 新增 XID 错误监控:支持致命/警告/应用级 XID 分类检测。
3. 新增 CRI 接口健康检查:检测容器运行时接口健康状态。
4. 新增 NTP 服务监控:支持 ntpd 和 chronyd 两种 NTP 服务。
5. 监控器细粒度控制:支持单独启用/禁用每个监控器。
6. 配置结构优化:重构 values.yaml,按监控类型分组,新增自定义指标配置。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2025-09-05
1.0.6
修复异常上报 FrequentKubeletRestart/FrequentDockerRestart/FrequentContainerdRestart 事件到 node 的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2025-08-19
1.0.5
增强 NPD 的能力,使其在检测到 Pod OOM 时,能够直接将事件上报到对应的 Pod 对象。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-12-05
1.0.4
基础镜像升级切换至 TencentOS Server 4 版本,修复 Ubuntu18.08 漏洞,提高镜像安全性。
监控能力增强:新增 Metrics 接口支持,提供 Prometheus 格式的监控指标,便于集成至监控系统。
服务检查优化:修复 Docker 与 Containerd 服务状态检查逻辑,消除因误判导致的冗余警告信息。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-26
1.0.3
内核兼容性修复:解决 Linux 5.4 内核环境下 OOM(Out Of Memory)事件信息获取异常的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。