容器服务压缩监控-TKE 标准集群指南-文档中心-腾讯云

QosAgent 在端口 8084 上提供了一系列指标，用于监控节点和 Pod 内存压缩情况，以及内存和 CPU 的压力情况。用户可以自行配置 Prometheus 和 Grafana 来进行监控。此外，我们还提供了 Grafana 的监控面板模板，方便业务快速查看内存压缩效果（请 提交工单 咨询获取）。
关键指标介绍
对象
指标名称
含义
Pod
pod_pressure_total 
Pod 级别 PSI，可以显示每个 Pod 由于缺少 CPU、内存、IO 等资源而产生的等待时长情况。
﻿
pod_memory_info
Pod 的内存情况，包括对 Pod 和容器的以下内存指标进行统计：RSS、匿名内存、文件页、活跃内存和非活跃内存。
﻿
pod_memory_page_fault_info
Pod 的缺页情况（包含文件页、匿名页缺页情况，major、minor 缺页情况）。
﻿
pod_memory_oom_kill
Pod 的 OOM 统计。
Node
node_pressure_total
节点 CPU、IO 和 memory 的 PSI 指标（表明是否某种资源受到限制）。
﻿
node_memory_page_fault_distance
refault 频率，表明“热”页面被换出去的情况。
﻿
node_memory_page_fault_major 
发生磁盘读取的缺页次数。
﻿
node_disk_io_time_seconds_total 
节点磁盘 IO 总时间（通过 zram0 设备的指标，可以观察到换出、换入到 zram0 的情况）。
﻿
node_disk_read_bytes_total   
磁盘、zram0 设备 IO 读带宽。
﻿
node_disk_reads_completed_total 
磁盘、zram0 设备 IO 读取次数（间接表明了内存压缩导致匿名内存缺页的情况）。
﻿
node_disk_writes_completed(time_seconds)_total 
磁盘/zram0 设备写入次数、总耗时。
﻿
node_memory_oom_kill
磁盘、zram0 设备的写入情况。
哪些业务可以被压缩
支持采集业务“冷”页占比作为预估可压缩值，“冷”页包含冷匿名页和冷文件页。根据预估的压缩值和业务属性，可以判断哪些业务可以进行压缩，以及预估压缩量。
Workingset Saved：kubelet 视角观察 “Inactive anon” 的节约值。
Memory Saved：监控视角观察 “Inactive anon + Inactive File” 节约值。
节约多少内存量
每个 Pod 节约的内存大小 = zram 压缩前的大小 - zram 压缩后的大小
内存回收是否准确
观察 “node_memory_page_fault_major” 和 PSI 指标，node_memory_page_fault_major 和 Memory PSI 指标低代表回收较为准确。
业务是否稳定
可关注 Pod/Node 的 OOM 次数、PSI、Zram0 设备的 IO（如 “node_disk_read_bytes_total ”、“node_disk_reads_completed_total ”、“node_disk_writes_completed(time_seconds)_total”）变化情况，OOM 次数、PSI、Zram0 IO 升高均代表不够稳定。
对接腾讯云 Prometheus 监控
1. 登录 Prometheus 监控服务控制台。
2. 在 Prometheus 实例列表中，单击新建的实例 ID/名称 。
3. 进入 Prometheus 管理中心，在顶部导航栏中单击数据采集。
4. 在集成容器服务页面单击关联集群，将集群和 Prometheus 实例关联，详情见 关联集群。
5. 在集群列表中单击集群右侧的数据采集配置，选择新建自定义监控，并填写配置信息。如下图所示：
﻿
﻿
﻿
6. 单击确定。
7. 在 grafana 中导入如下两个面板：
集群维度面板，请 提交工单 获取，如下图所示：
﻿
﻿
﻿
节点维度面板，请 提交工单 获取。如下图所示：
﻿
﻿
﻿
﻿
﻿
﻿

对象	指标名称	含义
Pod	pod_pressure_total	Pod 级别 PSI，可以显示每个 Pod 由于缺少 CPU、内存、IO 等资源而产生的等待时长情况。
		pod_memory_info	Pod 的内存情况，包括对 Pod 和容器的以下内存指标进行统计：RSS、匿名内存、文件页、活跃内存和非活跃内存。
		pod_memory_page_fault_info	Pod 的缺页情况（包含文件页、匿名页缺页情况，major、minor 缺页情况）。
		pod_memory_oom_kill	Pod 的 OOM 统计。
Node	node_pressure_total	节点 CPU、IO 和 memory 的 PSI 指标（表明是否某种资源受到限制）。
		node_memory_page_fault_distance	refault 频率，表明“热”页面被换出去的情况。
		node_memory_page_fault_major	发生磁盘读取的缺页次数。
		node_disk_io_time_seconds_total	节点磁盘 IO 总时间（通过 zram0 设备的指标，可以观察到换出、换入到 zram0 的情况）。
		node_disk_read_bytes_total	磁盘、zram0 设备 IO 读带宽。
		node_disk_reads_completed_total	磁盘、zram0 设备 IO 读取次数（间接表明了内存压缩导致匿名内存缺页的情况）。
		node_disk_writes_completed(time_seconds)_total	磁盘/zram0 设备写入次数、总耗时。
		node_memory_oom_kill	磁盘、zram0 设备的写入情况。

压缩监控

本页目录：

关键指标介绍

哪些业务可以被压缩

节约多少内存量

内存回收是否准确

业务是否稳定

对接腾讯云 Prometheus 监控