作为机器学习项目的一部分,我们正在优化一些定制的CUDA内核。
我们试图使用Nsight Compute对它们进行分析,但是在运行CUDA内核的简单包装程序时,在LHR RTX 3080上运行以下错误:
==ERROR== Failed to access the following 4 metrics: dram__cycles_active.avg.pct_of_peak_sustained_elapsed, dram__cycles_elapsed.avg.per_second, gpu__compute_memory_throughput.avg.pct_of_peak_sustained_elapsed, gpu__dram_throughput.avg.pct_of_peak_sustained_elapsed
==ERROR== Failed to profile kernel "kernel" in process 20204
通过nv-nsight-cu-cli --devices 0 --query-metrics
运行对RTX 3080 TI (非LHR )和RTX-3080 (LHR)上可用的指标的差异,我们注意到在RTX 3080 LHR版本中缺少以下指标:
gpu__compute_memory_request_throughput
gpu__compute_memory_throughput
gpu__dram_throughput
所有这些都是使用Nsight Compute进行基本内存分析所必需的。除了这些指标之外,所有其他指标都是正确的。这是LHR卡的限制吗?他们为什么不在场?
详细信息:
发布于 2022-01-20 10:21:32
根据Nvidia论坛,这是一个意外的错误,它是通过从CUDA 11.5升级到CUDA 11.6来修复的,在此基础上,所有分析都与所有可用的指标正确工作。
成功条件:
10
我们不知道为什么这些指标不可用,但是版本更新绝对是正确的修正。
发布于 2022-01-20 04:49:41
我在nvidia开发者论坛上看到了你的文章,从它的外观来看,nvidia并不打算这样做,所以我要么现在就去做什么(非lhr),直到他们修复它。Quadro和tesla卡是由Nsight Compute支持的,因此它们可能是一个保持不变的解决方案。
因此,要回答主要问题:
会购买一个非LHR GPU来解决这个问题吗?
就目前而言,是的,购买非lhr 3080应该可以解决这个问题。
https://stackoverflow.com/questions/70696846
复制相似问题