物理机硬件故障的常见排查方式

SRE运维进阶之路

发布于 2026-03-16 16:13:35

5560

物理机硬件故障排查，本质是从现象 → 定位部件 → 交叉验证 → 最终确认的工程过程。在数据中心环境中，应优先基于 带外管理 + 日志证据 + 最小干扰原则 进行排查。

下面按“部件维度 + 排查路径”系统整理。

一、CPU 故障排查

常见现象

• 机器频繁宕机 / 自动重启
• kernel panic
• dmesg 出现 MCE（Machine Check Exception）
• 负载异常高但业务无对应流量

排查步骤

1️⃣ 查看系统日志

dmesg | grep -i mce
journalctl -k

关键字段：

• Hardware Error
• CPU#
• Bank
• Cache hierarchy error

2️⃣ 查看 IPMI SEL 日志

ipmitool sel list

是否有：

• CPU Failure
• Thermal Trip
• Processor CATERR

3️⃣ 检查温度

ipmitool sdr type temperature

温度长期 >85℃ 基本可判定散热异常。

4️⃣ 交叉验证

• BIOS 查看 CPU 状态
• 物理重新插拔 CPU（停机）
• 更换 CPU 验证

二、内存故障排查

常见现象

• 系统随机宕机
• OOM 但实际内存充足
• kernel 报错：EDAC MC0
• 容器频繁被杀

排查步骤

1️⃣ 查看 ECC 错误

dmesg | grep -i edac

2️⃣ IPMI 日志

ipmitool sel list

是否有：

• Correctable ECC
• Uncorrectable ECC

Uncorrectable ECC = 必换内存

3️⃣ memtest 检测

使用：

• memtest86（离线）
• stress-ng 内存压测

4️⃣ DIMM 物理交叉

• 单条测试
• 插槽互换
• 主板 DIMM slot 验证

三、硬盘 / 存储故障

常见现象

• IO wait 高
• 业务超时
• RAID 降级
• 文件系统变只读

排查步骤

1️⃣ SMART 状态

smartctl -a /dev/sdX

重点字段：

• Reallocated_Sector
• Pending_Sector
• Media Errors

2️⃣ RAID 状态

不同厂商命令：

• Dell: perccli
• HPE: ssacli
• LSI: megacli

查看：

• Degraded
• Rebuild
• Foreign config

3️⃣ iostat 观察

iostat -x 1

关注：

• await
• svctm
• util%

util 持续 100% + await 高 = 磁盘异常可能性大

四、电源故障

常见现象

• 机器突然掉电
• 自动重启
• 电源灯黄灯

排查路径

1️⃣ IPMI 查看 PSU 状态

ipmitool sdr type power

2️⃣ 查看双电源是否冗余

• A/B 路是否都接入
• PDU 是否跳闸

3️⃣ 交叉验证

• 更换电源模块
• 更换 PDU 插座

五、主板故障

常见表现

• 随机死机
• 无法启动
• BMC 不可访问
• PCIe 设备异常消失

排查路径

1. 清除 CMOS
2. 升级 BIOS / BMC 固件
3. 更换最小化硬件启动
- • 仅 CPU + 单条内存 + 电源
4. 更换主板验证

六、网卡 / PCIe 故障

常见现象

• 网卡频繁 down/up
• 丢包严重
• 驱动报错

排查命令

ethtool -i eth0
ethtool eth0
dmesg | grep -i ixgbe

观察：

• link flapping
• bus error
• PCIe AER error

七、系统化排查方法论

结合你之前在做多机房、容灾、K8S 生产环境（从历史对话看你有大量 IDC 经验），我给你一个更偏数据中心运维视角的模型：

🔎 三层定位模型

第一层：软件证据

• kernel log
• 业务日志
• 监控指标（CPU steal / IO wait）

第二层：带外证据

• IPMI SEL
• BMC 健康状态
• 传感器数据

第三层：物理验证

• 交叉替换
• 最小化启动
• 更换硬件

八、数据中心常见误判

现象	实际原因
CPU 高负载	RAID 重建
OOM	内存 ECC 错误
网络丢包	主板 PCIe 抖动
容器重启	电源不稳

九、生产环境建议

1. 所有物理机开启 IPMI 日志抓取
2. 定期巡检 SMART
3. RAID 电池定期更换
4. 温度异常自动告警
5. 重要节点启用双电源 + 双上联

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-03，如有侵权请联系 cloudcommunity@tencent.com 删除

内存

本文分享自 SRE运维进阶之路微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

物理机硬件故障的常见排查方式

物理机硬件故障的常见排查方式

一、CPU 故障排查

常见现象

排查步骤

1️⃣ 查看系统日志

2️⃣ 查看 IPMI SEL 日志

3️⃣ 检查温度

4️⃣ 交叉验证

二、内存故障排查

常见现象

排查步骤

1️⃣ 查看 ECC 错误

2️⃣ IPMI 日志

3️⃣ memtest 检测

4️⃣ DIMM 物理交叉

三、硬盘 / 存储故障

常见现象

排查步骤

1️⃣ SMART 状态

2️⃣ RAID 状态

3️⃣ iostat 观察

四、电源故障

常见现象

排查路径

1️⃣ IPMI 查看 PSU 状态

2️⃣ 查看双电源是否冗余

3️⃣ 交叉验证

五、主板故障

常见表现

排查路径

六、网卡 / PCIe 故障

常见现象

排查命令

七、系统化排查方法论

🔎 三层定位模型

第一层：软件证据

第二层：带外证据

第三层：物理验证

八、数据中心常见误判

九、生产环境建议

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐