资源管理相关

最近更新时间:2026-05-20 16:02:15

我的收藏

为什么客户购买的 CVM 在 TI-ONE 控制台中不可见?

通常可能由以下几类原因导致:
1. CVM 机型或规格暂未完成 TI-ONE 适配;
2. TI-ONE 控制台当前选择的地域与 CVM 实际购买地域不一致;
3. CVM 的计费方式与 TI-ONE 控制台当前选择的计费模式不一致;
4. 特定地域需要开通白名单后才可在 TI-ONE 控制台展示。
建议优先核对 CVM 实例的地域、机型规格和计费方式,再根据具体情况处理。


CVM 机型或规格暂未适配 TI-ONE,应该如何处理?

请提交工单或需求单至产品侧,说明客户已购买的 CVM 型号、规格、地域及使用诉求。
产品侧会根据资源供给、客户需求合理性、适配成本及平台规划进行评估。评估通过后,将尽快推动该机型或规格在 TI-ONE 控制台适配上线。

CVM 已购买成功,但 TI-ONE 控制台仍然看不到,是否可能是地域选择错误?

可能,请客户在 TI-ONE 控制台切换至 CVM 实际购买地域。
例如:
CVM 购买地域:广州;
TI-ONE 控制台当前地域:上海;
处理方式:将 TI-ONE 控制台地域切换为广州后重新查看。

CVM 计费方式会影响 TI-ONE 控制台展示吗?

会。请核对客户购买 CVM 时选择的计费方式,并在 TI-ONE 控制台切换至一致的计费模式。
常见情况包括:
CVM 为包年包月购买:请在 TI-ONE 控制台切换至包年包月模式查看;
CVM 为按量计费购买:请在 TI-ONE 控制台切换至按量计费模式查看;

中卫地域的 CVM 为什么在 TI-ONE 控制台不可见?

中卫地域属于需要额外开通白名单的地域。请联系 TI-ONE 产品团队协助开通白名单。
白名单开通完成后,客户可重新进入 TI-ONE 控制台,并切换至中卫地域查看对应 CVM 资源。

GPU 监控指标说明

GPU 监控使用的 GPU Exporter 在兼容开源 DCGM Exporter 提供的监控指标的基础上,根据某些业务场景,丰富了指标的维度信息。关于 DCGM Exporter 的更多信息,请参见 DCGM Exporter
利用率(Utilization)
平台指标
指标来源
指标类型
单位
说明
GPU 使用率
DCGM_FI_DEV_GPU_UTIL
Gauge
%
表示 GPU 利用率,即在一个周期时间内(1s 或 1/6s,根据 GPU 产品而定),一个或多个核函数处于 Active 的时间。
该指标仅能够展示有核函数在用的 GPU 资源,但无法展示具体的使用情况。
内存(Memory)
平台指标
指标来源
指标类型
单位
说明
显存剩余量(MiB)
DCGM_FI_DEV_FB_FREE
Gauge
MiB
表示帧缓存(Framebuffer Memory)剩余数,帧缓存一般也被称为显存。
备注:仅用于下方显存使用率计算
显存使用量 (MiB)
DCGM_FI_DEV_FB_USED
Gauge
MiB
表示帧缓存已使用数。
该值与 nvidia-smi 命令中 Memory-Usage 的已使用值对应。
显存使用率 (%)
DCGM_FI_DEV_FB_USED * 100/(DCGM_FI_DEV_FB_FREE+DCGM_FI_DEV_FB_USED)
-
%
指标聚合计算
剖析(Profiling)
平台指标
指标来源
指标类型
单位
说明
SM Activity (%)
DCGM_FI_PROF_SM_ACTIVE
Gauge
%
表示在一个时间间隔内,至少一个线程束在一个 SM(Streaming Multiprocessor)上处于 Active
的时间占比。
该值表示所有 SM 的平均值,且该值对每个块的线程数不敏感。
线程束处于 Active 是指一个线程束被调度且分配资源后的状态,可能是在 Computing、也可能是非 Computing 状态(例如等待内存请求)。
该值小于0.5表示未高效利用 GPU,大于0.8是必要的。
假设一个 GPU 有 N 个 SM:
一个核函数在整个时间间隔内使用 N 个线程块运行在所有的 SM 上,此时该值为1(100%)。
一个核函数在一个时间间隔内运行 N/5 个线程块,此时该值为0.2。
一个核函数使用 N 个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。
Tensor Activity (%)
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
Gauge
%
表示 Tensor(HMMA/IMMA) Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值表示 Tensor Cores 的利用率较高。
该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个 Tensor 指令(两个周期完成一条指令)。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 Tensor Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 Tensor Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 Tensor Core 以100%利用率运行。
其他组合模式。
FP64 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP64_ACTIVE
Gauge
%
表示 FP64(双精度)Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表 FP64 Cores 有较高的利用率。
该值为 1(100%)表示在整个时间间隔内每四个周期(以 Volta 类型卡为例)执行一次 FP64 指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP64 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP64 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP64 Core 以100%利用率运行。
其他组合模式。
FP32 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP32_ACTIVE
Gauge
%
表示乘加操作 FMA(Fused Multiply-Add)管道处于 Active 的周期分数,乘加操作包括 FP32
(单精度)和整数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表 FP32 Cores 有较高的利用率。
该值为1(100%)表示在整个时间间隔内每两个周期(Volta 类型卡为例)执行一次 FP32 指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP32 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP32 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP32 Core 以100%利用率运行。
其他组合模式。
FP16 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP16_ACTIVE
Gauge
%
表示 FP16(半精度)管道处于 Active 的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表 FP16 Cores 有较高的利用率。
该值为 1 (100%) 表示在整个时间间隔内每两个周期(Volta 类型卡为例)执行一次 FP16指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP16 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP16 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP16 Core 以100%利用率运行。
其他组合模式。
PCIe Bandwidth (GB/s)
DCGM_FI_PROF_PCIE_TX_BYTES +
DCGM_FI_PROF_PCIE_RX_BYTES
Counter
B/s
表示通过 PCIe 总线传输/接收的数据速率,包括协议标头和数据有效负载。
该值表示一个时间间隔内的平均值,而不是瞬时值。
该速率在时间间隔内平均。例如,在1秒内传输 1GB 数据,则无论以恒定速率还是突发传输数据,
速率都是 1GB/s。理论上的最大 PCIe Gen3 带宽为每通道 985MB/s。
NVLink Bandwidth (GB/s)
DCGM_FI_PROF_NVLINK_RX_BYTES +
DCGM_FI_PROF_NVLINK_TX_BYTES
Counter
B/s
表示通过 NVLink 传输/接收的数据速率,不包括协议标头。
该值表示一个时间间隔内的平均值,而不是瞬时值。
该速率在时间间隔内平均。例如,在1秒内传输1GB 数据,则无论以恒定速率还是突发传输数据,
速率都是 1GB/s。理论上,最大 NVLink Gen2 带宽为每个方向每个链路 25GB/s。