
物理机硬件故障排查,本质是从现象 → 定位部件 → 交叉验证 → 最终确认的工程过程。 在数据中心环境中,应优先基于 带外管理 + 日志证据 + 最小干扰原则 进行排查。
下面按“部件维度 + 排查路径”系统整理。

dmesg | grep -i mce
journalctl -k关键字段:
Hardware ErrorCPU#BankCache hierarchy erroripmitool sel list是否有:
ipmitool sdr type temperature温度长期 >85℃ 基本可判定散热异常。

EDAC MC0dmesg | grep -i edacipmitool sel list是否有:
Uncorrectable ECC = 必换内存
使用:

smartctl -a /dev/sdX重点字段:
不同厂商命令:
percclissaclimegacli查看:
iostat -x 1关注:
util 持续 100% + await 高 = 磁盘异常可能性大

ipmitool sdr type power

ethtool -i eth0
ethtool eth0
dmesg | grep -i ixgbe观察:
结合你之前在做多机房、容灾、K8S 生产环境(从历史对话看你有大量 IDC 经验),我给你一个更偏数据中心运维视角的模型:
现象 | 实际原因 |
|---|---|
CPU 高负载 | RAID 重建 |
OOM | 内存 ECC 错误 |
网络丢包 | 主板 PCIe 抖动 |
容器重启 | 电源不稳 |