
凌晨 3:30(其实是UTC时间, 美国站点的晚上, 我们这边正常上班时间, 嘿嘿嘿),电话响了。心里咯噔一下:这个时间点的告警,十有八九不是什么好事。果然,值班同事反馈应用变得特别慢,大量请求超时,用户已经开始骂了。
我第一反应:是不是有什么 job 跑起来了?比如凌晨的日志备份。
查了一圈,发现确实有一个日志备份(先压缩写入, 再读取通过网络传到S3上去)的 cronjob 正在执行。正当我以为是元凶时,仔细一看,这 job 的日志量不算大,不至于把服务搞趴。但问题又确确实实发生了,那个时间点也只有这一个明显的操作。
好吧,排障的经典套路来了:先看基础设施层面有没有瓶颈。
登录监控系统(Prometheus + Grafana),先扫了一眼传统三件套:


这数据看着好像没什么问题……那应用为什么会慢?
等等。
有个指标被我忽略了——磁盘 IO 利用率。
🐾 注意: Prometheus 中的
node_disk_io_time_seconds或rate()化之后,(具体是:instance_device:node_disk_io_time_seconds:rate5m) 反映的是磁盘完成 IO 请求所花费的时间占比,可以理解为磁盘的 '忙碌程度'。 如果这个值维持在 100%,说明磁盘一直是满负荷运转的,IO 请求排着队,应用能不卡吗。
赶紧查了下这个指标,好家伙,直接 100%!

这就矛盾了:明明 IOPS 和网络带宽都没打满,为啥磁盘会一直 100% 忙?
这时候我突然觉得不对劲,仔细看了下网络流量和磁盘的指标。
node_network_receive_bytes_total 计算,大约 1Gbps。node_disk_bytes_total 计算,也是大约 1Gbps,和网卡流量几乎完全吻合。等等,gp3 卷的吞吐量上限是多少?
AWS 官网写得明明白白:gp3 卷的吞吐量单独计价,基础的吞吐量是 125 MB/s(约 1 Gbps)。不像 gp2, 如果你的 IOPS 和吞吐量都超出了基线,可以利用积分(burst credits),但一旦积分耗尽,吞吐量就会被硬性限制在 1 Gbps。
gp3 卷的吞吐量上限默认就是 125 MB/s(约 1 Gbps), burst 不了。除非你提前花钱买额外的吞吐量.
🤔 网卡流量 1 Gbps,磁盘吞吐量 1Gbps?这显然已经达到了 gp3 卷的 1Gbps 吞吐量限制。
真相只有一个:日志备份 job 产生了大量的磁盘写入/读取,瞬间吃光了 gp3 卷的吞吐量积分,导致后续所有的 IO 请求都被限速。 应用发起的业务请求虽然 IOPS 不高,但数据量不小,也被堵在了队列里。磁盘 IO 利用率 100%,并非 IOPS 不够,而是吞吐量被卡住了。
这就像是:一个快递站(gp3 卷)的处理速度(吞吐量)是固定的,突然来了一大卡车货(日志备份),把整条传送带占满了。后面来的一箱箱 VIP 快件(业务请求),只能等着,自然就超时了。
为了验证,我快速查了以下信息:
instance_device:node_disk_io_time_weighted_seconds:rate5m),这是判断 IO 是否真的 '拥堵' 的核心指标,而不是只看利用率。
这次 Case 让我意识到,很多'云原生' '云计算'的坑,都是对底层基础设施的'一知半解'导致的。以后排查类似问题,建议按以下顺序走:
instance_device:node_disk_io_time_weighted_seconds:rate5m 指标,判断是否有 IO 拥堵。BurstBalance 指标, 还是查 IOPS 和 吞吐量等指标。/var/log 的日志)。经历了这次问题, 我专门查找了相关的资料, 发现云服务的限制不止这些.
云服务虽带来弹性与可扩展性,但网络节流(带宽限制)常被忽视,是导致应用响应慢、卡顿的重要原因。即便CPU、内存等指标正常,网络节流仍会通过丢包、重传大幅增加延迟,引发服务中断、性能不稳定,甚至造成数百万美元收入损失。
排查应用故障,不能只看「有多少水(IOPS)」,更要关注「水的流速(吞吐量)」和「水管子堵不堵(IO 利用率)」。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。