监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
GPU 监控工作条件
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用云镜像市场 GPU 驱动预装镜像:无需任何安装。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。
在控制台查看 GPU 工作参数
参数说明:指标名称 | 含义 | 单位 | 维度 |
GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GPU 显存使用量 | 评估负载对显存占用 | MBytes | per-GPU |
GPU 功耗 | 评估 GPU 耗电情况 | W | per-GPU |
GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
在腾讯云可观测平台查看 GPU 工作参数
腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。登录 腾讯云可观测平台,左侧导航栏中选择 Dashboard ,进入 Dashboard 列表页。创建 Dashboard 后,在指标处选择 GPU/云服务器/GPU监控,单击您关注的指标,自定义监控面板进行多实例展示,如下图所示:
指标英文名 | 指标中文名 | 指标说明 | 单位 | 维度 |
Gpumemusage | GPU 显存使用率 | GPU 显存使用率 | % | per-GPU |
GpuMemUsed | GPU 显存使用量 | 评估负载对显存占用 | MB | per-GPU |
Gpupowdraw | GPU 功耗使用量 | GPU 功耗使用量 | W | per-GPU |
Gpupowusage | GPU 功耗使用率 | GPU 功耗使用率 | % | per-GPU |
Gputemp | GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
Gpuutil | GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GpuEncUtil | GPU 编码器使用率 | GPU 编码器使用率 | % | per-GPU |
GpuDecUtil | GPU 解码器使用率 | GPU 解码器使用率 | % | per-GPU |
无监控数据原因
只支持 NVIDIA GPU 实例。
没有安装 GPU 驱动或监控组件。
其他原因分析可参见 云服务器无监控数据。