腾讯云大模型训推平台TI-ONE 资源管理相关

为什么客户购买的 CVM 在 TI-ONE 控制台中不可见？
通常可能由以下几类原因导致：
1. CVM 机型或规格暂未完成 TI-ONE 适配；
2. TI-ONE 控制台当前选择的地域与 CVM 实际购买地域不一致；
3. CVM 的计费方式与 TI-ONE 控制台当前选择的计费模式不一致；
4. 特定地域需要开通白名单后才可在 TI-ONE 控制台展示。
建议优先核对 CVM 实例的地域、机型规格和计费方式，再根据具体情况处理。
﻿
CVM 机型或规格暂未适配 TI-ONE，应该如何处理？
请提交工单或需求单至产品侧，说明客户已购买的 CVM 型号、规格、地域及使用诉求。
产品侧会根据资源供给、客户需求合理性、适配成本及平台规划进行评估。评估通过后，将尽快推动该机型或规格在 TI-ONE 控制台适配上线。
 
CVM 已购买成功，但 TI-ONE 控制台仍然看不到，是否可能是地域选择错误？
可能，请客户在 TI-ONE 控制台切换至 CVM 实际购买地域。
例如：
CVM 购买地域：广州；
TI-ONE 控制台当前地域：上海；
处理方式：将 TI-ONE 控制台地域切换为广州后重新查看。
 
CVM 计费方式会影响 TI-ONE 控制台展示吗？
会。请核对客户购买 CVM 时选择的计费方式，并在 TI-ONE 控制台切换至一致的计费模式。
常见情况包括：
CVM 为包年包月购买：请在 TI-ONE 控制台切换至包年包月模式查看；
CVM 为按量计费购买：请在 TI-ONE 控制台切换至按量计费模式查看；
 
中卫地域的 CVM 为什么在 TI-ONE 控制台不可见？
中卫地域属于需要额外开通白名单的地域。请联系 TI-ONE 产品团队协助开通白名单。
白名单开通完成后，客户可重新进入 TI-ONE 控制台，并切换至中卫地域查看对应 CVM 资源。
 
GPU 监控指标说明
GPU 监控使用的 GPU Exporter 在兼容开源 DCGM Exporter 提供的监控指标的基础上，根据某些业务场景，丰富了指标的维度信息。关于 DCGM Exporter 的更多信息，请参见 DCGM Exporter。
利用率（Utilization）
平台指标
指标来源
指标类型
单位
说明
GPU 使用率
DCGM_FI_DEV_GPU_UTIL
Gauge
%
表示 GPU 利用率，即在一个周期时间内（1s 或 1/6s，根据 GPU 产品而定），一个或多个核函数处于 Active 的时间。
该指标仅能够展示有核函数在用的 GPU 资源，但无法展示具体的使用情况。
内存（Memory）
平台指标
指标来源
指标类型
单位
说明
显存剩余量（MiB）
DCGM_FI_DEV_FB_FREE
Gauge
MiB
表示帧缓存（Framebuffer Memory）剩余数，帧缓存一般也被称为显存。
备注：仅用于下方显存使用率计算
显存使用量 (MiB)
DCGM_FI_DEV_FB_USED
Gauge
MiB
表示帧缓存已使用数。
该值与 nvidia-smi 命令中 Memory-Usage 的已使用值对应。
显存使用率 (%)
DCGM_FI_DEV_FB_USED * 100/（DCGM_FI_DEV_FB_FREE+DCGM_FI_DEV_FB_USED）
-
%
指标聚合计算
剖析（Profiling）
平台指标
指标来源
指标类型
单位
说明
SM Activity (%)
DCGM_FI_PROF_SM_ACTIVE
Gauge
%
表示在一个时间间隔内，至少一个线程束在一个 SM（Streaming Multiprocessor）上处于 Active
的时间占比。
该值表示所有 SM 的平均值，且该值对每个块的线程数不敏感。
线程束处于 Active 是指一个线程束被调度且分配资源后的状态，可能是在 Computing、也可能是非 Computing 状态（例如等待内存请求）。
该值小于0.5表示未高效利用 GPU，大于0.8是必要的。
假设一个 GPU 有 N 个 SM：
一个核函数在整个时间间隔内使用 N 个线程块运行在所有的 SM 上，此时该值为1（100%）。
一个核函数在一个时间间隔内运行 N/5 个线程块，此时该值为0.2。
一个核函数使用 N 个线程块，在一个时间间隔内，仅运行了1/5个周期的时间，此时该值为0.2。
Tensor Activity (%)
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
Gauge
%
表示 Tensor（HMMA/IMMA） Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值，而不是瞬时值。
较高的值表示 Tensor Cores 的利用率较高。
该值为1（100%）表示在整个时间间隔内每隔一个指令周期发出一个 Tensor 指令（两个周期完成一条指令）。
假设该值为0.2（20%），可能有如下情况：
在整个时间间隔内，有20%的 SM 的 Tensor Core 以100%的利用率运行。
在整个时间间隔内，有100%的 SM 的 Tensor Core 以20%的利用率运行。
在整个时间间隔的1/5时间内，有100%的 SM 上的 Tensor Core 以100%利用率运行。
其他组合模式。
FP64 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP64_ACTIVE
Gauge
%
表示 FP64（双精度）Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值，而不是瞬时值。
较高的值代表 FP64 Cores 有较高的利用率。
该值为 1（100%）表示在整个时间间隔内每四个周期（以 Volta 类型卡为例）执行一次 FP64 指令。
假设该值为0.2（20%），可能有如下情况：
在整个时间间隔内，有20%的 SM 的 FP64 Core 以100%的利用率运行。
在整个时间间隔内，有100%的 SM 的 FP64 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内，有100%的 SM 上的 FP64 Core 以100%利用率运行。
其他组合模式。
FP32 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP32_ACTIVE
Gauge
%
表示乘加操作 FMA（Fused Multiply-Add）管道处于 Active 的周期分数，乘加操作包括 FP32
（单精度）和整数。
该值表示一个时间间隔内的平均值，而不是瞬时值。
较高的值代表 FP32 Cores 有较高的利用率。
该值为1（100%）表示在整个时间间隔内每两个周期（Volta 类型卡为例）执行一次 FP32 指令。
假设该值为0.2（20%），可能有如下情况：
在整个时间间隔内，有20%的 SM 的 FP32 Core 以100%的利用率运行。
在整个时间间隔内，有100%的 SM 的 FP32 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内，有100%的 SM 上的 FP32 Core 以100%利用率运行。
其他组合模式。
FP16 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP16_ACTIVE
Gauge
%
表示 FP16（半精度）管道处于 Active 的周期分数。
该值表示一个时间间隔内的平均值，而不是瞬时值。
较高的值代表 FP16 Cores 有较高的利用率。
该值为 1 (100%) 表示在整个时间间隔内每两个周期（Volta 类型卡为例）执行一次 FP16指令。
假设该值为0.2（20%），可能有如下情况：
在整个时间间隔内，有20%的 SM 的 FP16 Core 以100%的利用率运行。
在整个时间间隔内，有100%的 SM 的 FP16 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内，有100%的 SM 上的 FP16 Core 以100%利用率运行。
其他组合模式。
PCIe Bandwidth (GB/s)
DCGM_FI_PROF_PCIE_TX_BYTES +
DCGM_FI_PROF_PCIE_RX_BYTES
Counter
B/s
表示通过 PCIe 总线传输/接收的数据速率，包括协议标头和数据有效负载。
该值表示一个时间间隔内的平均值，而不是瞬时值。
该速率在时间间隔内平均。例如，在1秒内传输 1GB 数据，则无论以恒定速率还是突发传输数据，
速率都是 1GB/s。理论上的最大 PCIe Gen3 带宽为每通道 985MB/s。
NVLink Bandwidth (GB/s)
DCGM_FI_PROF_NVLINK_RX_BYTES +
DCGM_FI_PROF_NVLINK_TX_BYTES
Counter
B/s
表示通过 NVLink 传输/接收的数据速率，不包括协议标头。
该值表示一个时间间隔内的平均值，而不是瞬时值。
该速率在时间间隔内平均。例如，在1秒内传输1GB 数据，则无论以恒定速率还是突发传输数据，
速率都是 1GB/s。理论上，最大 NVLink Gen2 带宽为每个方向每个链路 25GB/s。
﻿
﻿
﻿
平台指标	指标来源	指标类型	单位	说明
GPU 使用率	DCGM_FI_DEV_GPU_UTIL	Gauge	%	表示 GPU 利用率，即在一个周期时间内（1s 或 1/6s，根据 GPU 产品而定），一个或多个核函数处于 Active 的时间。该指标仅能够展示有核函数在用的 GPU 资源，但无法展示具体的使用情况。
资源管理相关

本页目录：

为什么客户购买的 CVM 在 TI-ONE 控制台中不可见？

CVM 机型或规格暂未适配 TI-ONE，应该如何处理？

CVM 已购买成功，但 TI-ONE 控制台仍然看不到，是否可能是地域选择错误？

CVM 计费方式会影响 TI-ONE 控制台展示吗？

中卫地域的 CVM 为什么在 TI-ONE 控制台不可见？

GPU 监控指标说明

﻿

﻿