使用 GPU 监控

最近更新时间:2024-10-28 14:52:53

我的收藏
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
您也可以在 腾讯云可观测平台 分析监控指标和实施告警,更多详细内容可参见 腾讯云可观测平台告警管理

GPU 监控工作条件

GPU 监控是通过在 GPU 云服务上部署安装相关 GPU 驱动云服务器监控组件 来实现的,使用不同的镜像需要不同的处理方式:
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。

在控制台查看 GPU 工作参数

单击 GPU 列表中的

监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示:


参数说明:
指标名称
含义
单位
维度
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
per-GPU
GPU 显存使用量
评估负载对显存占用
MBytes
per-GPU
GPU 功耗
评估 GPU 耗电情况
W
per-GPU
GPU 温度
评估 GPU 散热状态
摄氏度
per-GPU

在腾讯云可观测平台查看 GPU 工作参数

腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。登录 腾讯云可观测平台,左侧导航栏中选择 Dashboard ,进入 Dashboard 列表页。创建 Dashboard 后,在指标处选择 GPU/云服务器/GPU监控,单击您关注的指标,自定义监控面板进行多实例展示,如下图所示:



参数详情可参见腾讯云可观测平台 GPU 云服务器监控指标,提供以下监控指标:
指标英文名
指标中文名
指标说明
单位
维度
Gpumemusage
GPU 显存使用率
GPU 显存使用率
%
per-GPU
GpuMemUsed
GPU 显存使用量
评估负载对显存占用
MB
per-GPU
Gpupowdraw
GPU 功耗使用量
GPU 功耗使用量
W
per-GPU
Gpupowusage
GPU 功耗使用率
GPU 功耗使用率
%
per-GPU
Gputemp
GPU 温度
评估 GPU 散热状态
摄氏度
per-GPU
Gpuutil
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
per-GPU
GpuEncUtil
GPU 编码器使用率
GPU 编码器使用率
%
per-GPU
GpuDecUtil
GPU 解码器使用率
GPU 解码器使用率
%
per-GPU

无监控数据原因

只支持 NVIDIA GPU 实例。
没有安装 GPU 驱动或监控组件。
其他原因分析可参见 云服务器无监控数据