TI-ONE 训练平台

基建相关

最近更新时间:2025-02-18 18:34:52

我的收藏

计费常见问题

TIONE 平台中使用对象存储 COS,怎么计费?

对象存储 COS 为腾讯云的分布式存储服务,计费独立详情请参见 对象存储-计费概述,将会应用于腾讯云 TI 平台 TI-ONE 中的各个环节,包括训练数据、中间结果数据和模型文件的存放与读取等。更多信息,请参考 对象存储产品文档

GPU 指标说明

指标说明

GPU 监控使用的 GPU Exporter 在兼容开源 DCGM Exporter 提供的监控指标的基础上,根据某些业务场景,丰富了指标的维度信息。关于 DCGM Exporter 的更多信息,请参见DCGM Exporter

GPU 指标详解

利用率(Utilization)

平台指标
指标来源
指标类型
单位
说明
GPU 使用率
DCGM_FI_DEV_GPU_UTIL
Gauge
%
表示 GPU 利用率,即在一个周期时间内(1s或1/6s,根据 GPU 产品而定),一个或多个核函数处于 Active 的时间。
该指标仅能够展示有核函数在用的 GPU 资源,但无法展示具体的使用情况。

内存(Memory)

平台指标
指标来源
指标类型
单位
说明
显存剩余量(MiB)
DCGM_FI_DEV_FB_FREE
Gauge
MiB
表示帧缓存(Framebuffer Memory)剩余数,帧缓存一般也被称为显存。
备注:仅用于下方显存使用率计算
显存使用量 (MiB)
DCGM_FI_DEV_FB_USED
Gauge
MiB
表示帧缓存已使用数。
该值与 nvidia-smi 命令中 Memory-Usage 的已使用值对应。
显存使用率 (%)
DCGM_FI_DEV_FB_USED * 100/(DCGM_FI_DEV_FB_FREE+DCGM_FI_DEV_FB_USED)
-
%
指标聚合计算

剖析(Profiling)

平台指标
指标来源
指标类型
单位
说明
SM Activity (%)
DCGM_FI_PROF_SM_ACTIVE
Gauge
%
表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active
的时间占比。
该值表示所有 SM 的平均值,且该值对每个块的线程数不敏感。
线程束处于 Active 是指一个线程束被调度且分配资源后的状态,可能是在 Computing、也可能是非Computing状态(例如等待内存请求)。
该值小于0.5表示未高效利用 GPU,大于0.8是必要的。
假设一个GPU有N个SM:
一个核函数在整个时间间隔内使用N个线程块运行在所有的 SM 上,此时该值为1(100%)。
一个核函数在一个时间间隔内运行N/5个线程块,此时该值为0.2。
一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。
Tensor Activity (%)
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
Gauge
%
表示 Tensor(HMMA/IMMA) Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值表示 Tensor Cores 的利用率较高。
该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个 Tensor 指令(两个周期完成一条指令)。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 Tensor Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 Tensor Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 Tensor Core 以100%利用率运行。
其他组合模式。
FP64 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP64_ACTIVE
Gauge
%
表示FP64(双精度)Pipe 处于 Active 状态的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表FP64 Cores 有较高的利用率。
该值为 1(100%)表示在整个时间间隔内上每四个周期(以Volta类型卡为例)执行一次FP64指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP64 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP64 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP64 Core 以100%利用率运行。
其他组合模式。
FP32 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP32_ACTIVE
Gauge
%
表示乘加操作 FMA(Fused Multiply-Add)管道处于 Active 的周期分数,乘加操作包括FP32
(单精度)和整数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表 FP32 Cores 有较高的利用率。
该值为1(100%)表示在整个时间间隔内上每两个周期(Volta 类型卡为例)执行一次 FP32 指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP32 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP32 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP32 Core 以100%利用率运行。
其他组合模式。
FP16 Engine Activity (%)
DCGM_FI_PROF_PIPE_FP16_ACTIVE
Gauge
%
表示 FP16(半精度)管道处于 Active 的周期分数。
该值表示一个时间间隔内的平均值,而不是瞬时值。
较高的值代表 FP16 Cores 有较高的利用率。
该值为 1 (100%) 表示在整个时间间隔内上每两个周期(Volta 类型卡为例)执行一次FP16指令。
假设该值为0.2(20%),可能有如下情况:
在整个时间间隔内,有20%的 SM 的 FP16 Core 以100%的利用率运行。
在整个时间间隔内,有100%的 SM 的 FP16 Core 以20%的利用率运行。
在整个时间间隔的1/5时间内,有100%的 SM 上的 FP16 Core 以100%利用率运行。
其他组合模式。
PCIe Bandwidth (GB/s)
DCGM_FI_PROF_PCIE_TX_BYTES +
DCGM_FI_PROF_PCIE_RX_BYTES
Counter
B/s
表示通过 PCIe 总线传输/接收的数据速率,包括协议标头和数据有效负载。
该值表示一个时间间隔内的平均值,而不是瞬时值。
该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,
速率都是1 GB/s。理论上的最大 PCIe Gen3 带宽为每通道985 MB/s。
NVLink Bandwidth (GB/s)
DCGM_FI_PROF_NVLINK_RX_BYTES +
DCGM_FI_PROF_NVLINK_TX_BYTES
Counter
B/s
表示通过 NVLink 传输/接收的数据速率,不包括协议标头。
该值表示一个时间间隔内的平均值,而不是瞬时值。
该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,
速率都是1 GB/s。理论上,最大 NVLink Gen2 带宽为每个方向每个链路25 GB/s。







如果遇到产品相关问题,您可咨询 在线客服寻求帮助。