# 1. 引言 突然观察到服务器 load 过高,可是 CPU 占用率很低。 这也算是一个常见问题了。 那么,如何排查和解决这个问题呢?
通过 top 命令,可以看到 CPU 的 wait 很高,可以参考: top 命令详解
我们通过 iostat 可以分析 IO 性能。 通常通过 -x 参数显示详细信息。 下面是一个示例,执行:
iostat -x -k 3 2
返回信息总共包含三部分:
选项 | 说明 |
---|---|
第一行 | 最上面指示系统版本、主机名和当前日期 |
avg-cpu | 总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值 |
Device | 各磁盘设备的IO统计信息 |
avg-cpu中各列参数含义如下:
选项 | 说明 |
---|---|
%user | CPU在用户态执行进程的时间百分比。 |
%nice | CPU在用户态模式下,用于nice操作,所占用CPU总时间的百分比 |
%system | CPU处在内核态执行进程的时间百分比 |
%iowait | CPU用于等待I/O操作占用CPU总时间的百分比 |
%steal | 管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU的百分比 |
%idle | CPU空闲时间百分比 |
Device 中各列参数含义如下:
选项 | 说明 |
---|---|
rrqm/s | 每秒对该设备的读请求被合并次数,文件系统会对读取同块(block)的请求进行合并 |
wrqm/s | 每秒对该设备的写请求被合并次数 |
r/s | 每秒完成的读次数 |
w/s | 每秒完成的写次数 |
rkB/s | 每秒读数据量(kB为单位) |
wkB/s | 每秒写数据量(kB为单位) |
avgrq-sz | 平均每次IO操作的数据量(扇区数为单位) |
avgqu-sz | 平均等待处理的IO请求队列长度 |
await | 平均每次IO请求等待时间(包括等待时间和处理时间,毫秒为单位) |
svctm | 平均每次IO请求的处理时间(毫秒为单位) |
%util | 采用周期内用于IO操作的时间比率,即IO队列非空的时间比率 |
通过具体的 Device 中的 %util 可以看出具体是那块磁盘负载过大。
执行 iotop 命令可以看到每个进程占用的 io 比例:
我们可以找到占用 IO 最大的 TID 即进程 ID。
SIZE 一列即读写大小,通过其增长我们就可以锁定究竟是哪个文件造成了 IO 过高。 从而可以分析具体的代码来解决这个问题。
https://support.zabbix.com/browse/ZBXNEXT-1914。 https://www.jianshu.com/p/cb64232df70c。 https://blog.csdn.net/xusensen/article/details/73080887。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有