计费常见问题
TIONE 平台中使用对象存储 COS,怎么计费?
对象存储 COS 为腾讯云的分布式存储服务,计费独立详情请参见 对象存储-计费概述,将会应用于腾讯云 TI 平台 TI-ONE 中的各个环节,包括训练数据、中间结果数据和模型文件的存放与读取等。更多信息,请参考 对象存储产品文档。
GPU 指标说明
指标说明
GPU 监控使用的 GPU Exporter 在兼容开源 DCGM Exporter 提供的监控指标的基础上,根据某些业务场景,丰富了指标的维度信息。关于 DCGM Exporter 的更多信息,请参见DCGM Exporter。
GPU 指标详解
利用率(Utilization)
平台指标 | 指标来源 | 指标类型 | 单位 | 说明 |
GPU 使用率 | DCGM_FI_DEV_GPU_UTIL | Gauge | % | 表示 GPU 利用率,即在一个周期时间内(1s或1/6s,根据 GPU 产品而定),一个或多个核函数处于 Active 的时间。 该指标仅能够展示有核函数在用的 GPU 资源,但无法展示具体的使用情况。 |
内存(Memory)
平台指标 | 指标来源 | 指标类型 | 单位 | 说明 |
显存剩余量(MiB) | DCGM_FI_DEV_FB_FREE | Gauge | MiB | 表示帧缓存(Framebuffer Memory)剩余数,帧缓存一般也被称为显存。 备注:仅用于下方显存使用率计算 |
显存使用量 (MiB) | DCGM_FI_DEV_FB_USED | Gauge | MiB | 表示帧缓存已使用数。 该值与 nvidia-smi 命令中 Memory-Usage 的已使用值对应。 |
显存使用率 (%) | DCGM_FI_DEV_FB_USED * 100/(DCGM_FI_DEV_FB_FREE+DCGM_FI_DEV_FB_USED) | - | % | 指标聚合计算 |
剖析(Profiling)
平台指标 | 指标来源 | 指标类型 | 单位 | 说明 |
SM Activity (%) | DCGM_FI_PROF_SM_ACTIVE | Gauge | % | 表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active 的时间占比。 该值表示所有 SM 的平均值,且该值对每个块的线程数不敏感。 线程束处于 Active 是指一个线程束被调度且分配资源后的状态,可能是在 Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用 GPU,大于0.8是必要的。 假设一个GPU有N个SM: 一个核函数在整个时间间隔内使用N个线程块运行在所有的 SM 上,此时该值为1(100%)。 一个核函数在一个时间间隔内运行N/5个线程块,此时该值为0.2。 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。 |
Tensor Activity (%) | DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | % | 表示 Tensor(HMMA/IMMA) Pipe 处于 Active 状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值表示 Tensor Cores 的利用率较高。 该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个 Tensor 指令(两个周期完成一条指令)。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的 SM 的 Tensor Core 以100%的利用率运行。 在整个时间间隔内,有100%的 SM 的 Tensor Core 以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的 SM 上的 Tensor Core 以100%利用率运行。 其他组合模式。 |
FP64 Engine Activity (%) | DCGM_FI_PROF_PIPE_FP64_ACTIVE | Gauge | % | 表示FP64(双精度)Pipe 处于 Active 状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表FP64 Cores 有较高的利用率。 该值为 1(100%)表示在整个时间间隔内上每四个周期(以Volta类型卡为例)执行一次FP64指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的 SM 的 FP64 Core 以100%的利用率运行。 在整个时间间隔内,有100%的 SM 的 FP64 Core 以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的 SM 上的 FP64 Core 以100%利用率运行。 其他组合模式。 |
FP32 Engine Activity (%) | DCGM_FI_PROF_PIPE_FP32_ACTIVE | Gauge | % | 表示乘加操作 FMA(Fused Multiply-Add)管道处于 Active 的周期分数,乘加操作包括FP32 (单精度)和整数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表 FP32 Cores 有较高的利用率。 该值为1(100%)表示在整个时间间隔内上每两个周期(Volta 类型卡为例)执行一次 FP32 指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的 SM 的 FP32 Core 以100%的利用率运行。 在整个时间间隔内,有100%的 SM 的 FP32 Core 以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的 SM 上的 FP32 Core 以100%利用率运行。 其他组合模式。 |
FP16 Engine Activity (%) | DCGM_FI_PROF_PIPE_FP16_ACTIVE | Gauge | % | 表示 FP16(半精度)管道处于 Active 的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表 FP16 Cores 有较高的利用率。 该值为 1 (100%) 表示在整个时间间隔内上每两个周期(Volta 类型卡为例)执行一次FP16指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的 SM 的 FP16 Core 以100%的利用率运行。 在整个时间间隔内,有100%的 SM 的 FP16 Core 以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的 SM 上的 FP16 Core 以100%利用率运行。 其他组合模式。 |
PCIe Bandwidth (GB/s) | DCGM_FI_PROF_PCIE_TX_BYTES + DCGM_FI_PROF_PCIE_RX_BYTES | Counter | B/s | 表示通过 PCIe 总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据, 速率都是1 GB/s。理论上的最大 PCIe Gen3 带宽为每通道985 MB/s。 |
NVLink Bandwidth (GB/s) | DCGM_FI_PROF_NVLINK_RX_BYTES + DCGM_FI_PROF_NVLINK_TX_BYTES | Counter | B/s | 表示通过 NVLink 传输/接收的数据速率,不包括协议标头。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据, 速率都是1 GB/s。理论上,最大 NVLink Gen2 带宽为每个方向每个链路25 GB/s。 |