Cuda内存传输开销

是指在使用NVIDIA的CUDA平台进行GPU编程时，将数据从主机内存传输到设备内存或者从设备内存传输到主机内存所产生的时间和性能开销。

CUDA是一种并行计算平台和编程模型，它允许开发者利用NVIDIA的GPU进行高性能计算。在CUDA编程中，主机和设备之间的数据传输是一个重要的环节。由于主机内存和设备内存是分离的，数据需要在两者之间进行传输才能进行计算。然而，这种数据传输过程会产生一定的开销，包括传输时间和性能损失。

Cuda内存传输开销的主要原因是主机内存和设备内存之间的数据传输需要通过PCIe总线进行，这会引入一定的延迟和带宽限制。此外，数据传输的频繁性也会增加开销，特别是在大规模数据处理和复杂计算任务中。

为了减少Cuda内存传输开销，可以采取以下策略：

数据复用：尽量减少主机和设备之间的数据传输次数，可以通过在设备内存中复用数据来减少传输开销。
内存对齐：确保数据在主机和设备之间传输时是按照最佳的内存对齐方式进行的，这可以提高传输效率。
异步传输：使用CUDA的异步内存传输功能，可以在数据传输的同时进行计算，从而减少传输开销。
数据压缩：对于大规模数据传输，可以考虑使用数据压缩算法来减少传输的数据量，从而降低传输开销。
数据分块：将大规模数据分成多个较小的块进行传输，可以减少传输的时间和带宽占用。

在腾讯云的产品中，与Cuda内存传输开销相关的产品包括：

GPU云服务器：提供了强大的GPU计算能力，适用于进行CUDA编程和高性能计算任务。
弹性GPU：为云服务器提供了可扩展的GPU计算能力，可以根据需求动态调整GPU资源。
GPU容器服务：提供了基于容器的GPU计算环境，方便进行CUDA编程和GPU加速的应用部署。

以上是关于Cuda内存传输开销的概念、优势、应用场景以及腾讯云相关产品的介绍。希望对您有所帮助。

页面内容是否对你有帮助？

有帮助

没帮助

从CUDA设备写入输出文件

、、

我是一个在CUDA编程和过程中重新编写C代码为并行的CUDA新代码的新手。是否有一种方法可以直接从设备写入输出数据文件，而不需要将数组从设备复制到主机？我想如果cuPrintf存在的话，一定要写一个cuFprintf吗？抱歉，如果前面的话题已经给出了答案，我似乎找不到. 谢谢!

浏览 0提问于2014-01-23得票数 2

回答已采纳

1回答

CUDA bandwidthTest将达到可达到的峰值

、、

我想知道我的CUDA内核在内存带宽利用率方面有多好。我在一台特斯拉K40c上运行它们。bandwidthTest实用程序给出的结果是否很好地近似于可达到的峰值？否则，如何编写一个类似的测试来找到峰值带宽呢？我的意思是设备内存带宽。

浏览 4提问于2014-06-05得票数 1

1回答

我有GTX560。我今天买了GTX760。为什么GTX760的内核比GTX560的内核慢(~0.031ms) (~0.0232ms)。当n增加到1000000时，它更快(~25%)，而对于小n则不是。我有两台电脑。第一个(GTX560内部)是英特尔(R)核心(TM) i5 CPU，P7P55D-ELX，CUDA5.0，Kubuntu12.04。第二个(GTX760内部)，AMD (Tm)-6300，主板760 GA-P43(FX)，CUDA 6.5 Kubuntu 14.04。但我仍然认为，原因不在于不同的CPU等等。 GTX560: nvcc -arch=sm_20 -fmad=false

浏览 2提问于2014-11-17得票数 1

2回答

为什么GPU上的乘法比CPU上的乘法慢？

、、

下面是我的代码(模拟前馈神经网络)： import torch import time print(torch.cuda.is_available()) # True device = torch.device('cuda:0' ) a = torch.tensor([1,2,3,4,5,6]).float().reshape(-1,1) w1 = torch.rand(120,6) w2 = torch.rand(1,120) b1 = torch.rand(120,1) b2 = torch.rand(1,1).reshape(1,1) start = time

浏览 0提问于2020-10-27得票数 2

5回答

Cuda 4.0 vs 3.2

、、、

CUDA 4.0比3.2快吗？我对CUDA 4.0的添加不感兴趣，而是想知道如果我使用CUDA 4.0，内存分配和传输是否会更快。谢谢

浏览 0提问于2011-05-05得票数 2

1回答

使用cudaHostAlloc在哪里分配固定内存？

我正在阅读Page-Locked Host Memory中的Cuda Programming Guide，并且想知道使用函数cudaHostAlloc创建时这个固定内存分配在哪里？它在内核地址空间吗？或者是在进程地址空间中分配的？

浏览 1提问于2018-03-25得票数 4

回答已采纳

2回答

如何在CUDA中度量内核启动的开销

我想在CUDA中测量内核启动的开销。据我所知，有各种参数影响这一开销。我对以下各点感兴趣：创建的线程数正在复制的数据的大小我这样做主要是为了衡量使用CUDA 6.0中引入的托管内存的优势。我将用我开发的代码和注释更新这个问题。谢谢!

浏览 5提问于2014-06-23得票数 4

回答已采纳

2回答

钉扎内存在PyTorch中实际上要慢一些吗？

、

我想知道为什么将内存固定在PyTorch中会使事情变得更慢。通过阅读torch.utils.data.dataloader的代码，我发现DataLoader的pin_memory=True选项只是在每个批处理上调用.pin_memory()，然后才返回它们。返回的张量仍然在CPU上，之后我必须手动调用.cuda(non_blocking=True)。因此，整个过程是 for x in some_iter: yield x.pin_memory().cuda(non_blocking=True) 我比较了这方面的表现 for x in some_iter: yield x.cud

浏览 2提问于2019-11-07得票数 15

2回答

报告CUDA加速的正确方法

我想比较在CPU上运行的串行程序和在GPU上运行的CUDA程序的性能。但我不确定如何公平地比较性能。例如，如果我将旧CPU和新GPU的性能进行比较，那么我将获得巨大的加速比。另一个问题:如何将我的CUDA程序与论文中报告的另一个CUDA程序进行比较(两者都运行在不同的GPU上，并且我无法访问源代码)。

浏览 0提问于2012-09-26得票数 2

回答已采纳

2回答

为什么在CPU学习比在GPU学习慢

我有: GPU : GeForce RTX20708GB。CPU : AMD Ryzen 7 1700八核处理器.内存:32 RAM。司机版本: 418.43。CUDA版本: 10.1。在我的项目中，gpu也比cpu慢。但是现在我将使用文档示例。 from catboost import CatBoostClassifier import time start_time = time.time() train_data = [[0,3], [4,1], [8,1], [9,1]] train_labels = [0,0,1,1]

浏览 0提问于2019-03-19得票数 2

回答已采纳

1回答

‘刷新记录’-并行Nsight分析结果中的警告

、、

我正在尝试评测我的CUDA内核，它运行在Windows 7 32位计算机和NVIDIA GTX 480板上。我使用的是CUDA 4.1 32位工具包和VS2010的Parallel Nsight 2.1版本。我的程序的性能分析结果总是不规律地显示相同的警告: Message: Flush records，Event Type: Range，Level: 50 在此事件之后，始终有几毫秒的处理中断。然后GPU以它以前拥有的速度进行计算。我没有在CUDA文档和网络上找到任何关于这个警告的信息，我甚至不知道这是不是一个只有在分析过程中才会出现的问题。有没有人知道这个警告是关于什么以及如何避免它

浏览 3提问于2012-08-29得票数 1

回答已采纳

1回答

Jetson Nano Numba GPU Vector添加基准测试

、、

我正在尝试使用Numba矢量化在GPU和CPU上添加随机向量。下面是我的例子： import numpy as np from timeit import default_timer as timer from numba import vectorize TARGET = 'cpu' #TARGET = 'cuda' @vectorize(["float64(float64, float64)"], target=TARGET) def VectorAdd(a, b): return a + b def main():

浏览 10提问于2021-01-10得票数 0

回答已采纳

1回答

使用CUDA迭代多个图像会提高性能吗？

、、

代码被过度简化了，只是为了解决问题。在我设置CUDA环境和对我的代码做任何更改之前，我想得到一个输入，看看在GPU上执行下面的代码是否会更快。代码基本上遍历图像，并仅当相应的掩码值不为零时才将图像像素值复制到dst。镜像数量可以高达10个，大小可以在2K * 2K左右。如果我使用#pragma omp，它确实提高了性能。所以，问题是，如果我在GPU上执行这段代码(假设我有一块很好的显卡，比如GTX 1050)，当每个线程处理一个单独的图像时，性能会显著提高吗？ for (int i = 0; i < images.size(); ++i) { for (int y = 0;

浏览 4提问于2018-01-18得票数 0

回答已采纳

2回答

CUDA -通过PCI-E传输的速度有多慢？

、、

如果我将一个字节从CUDA内核传输到PCI-E，再传输到主机(零拷贝内存)，与传输200兆字节相比，它的速度有多慢？我想知道的是，由于我知道通过PCI-E传输CUDA内核的速度很慢，如果我只传输一个字节或大量数据，会有什么变化吗？或者也许因为内存传输是以“批量”的方式执行的，所以传输一个字节与传输200MB相比是非常昂贵和无用的？

浏览 6提问于2013-07-19得票数 4

回答已采纳

1回答

卷积核CUDA的设计

、、

我正在尝试为CUDA设计一个卷积内核代码。它将拍摄相对较小的图片(对于我的应用程序，通常是19 * 19图像) 在我的研究中，我发现最值得注意的是这篇论文：我理解它的概念，但我想知道，对于小图像，使用原始图像的一个像素接一个像素，并使用该块的线程作为像素来获取，然后进行块宽缩减，是否足够快？我做了一个基本的实现，使全局内存访问合并，那么，这是一个小图片的好设计吗？或者我应该遵循“传统”方法？

浏览 9提问于2017-07-07得票数 2

回答已采纳

2回答

为什么numpy.dot和这些矩阵乘法的GPU实现一样快？

、

根据下表(来自)，在与320x320矩阵的实验中，numpy的np.dot性能与CUDA实现的矩阵乘法相当。我在我的机器上复制了这个加速比，为np.dot提供了足够的精度。不过，他们用Numba编写的CUDA代码运行得要慢得多，其加速比为1200，而不是报告的49258。为什么numpy的实现这么快？编辑：是从报纸上提取的代码。我刚添加了timeit调用。我在下面的笔记本电脑上运行了它。库达 import numpy as np from numba import cuda @cuda.jit('void( float64 [ : , : ] , float64 [ :

浏览 6提问于2019-10-16得票数 3

回答已采纳

1回答

NVIDIA Nsight系统CLI没有获得内存统计数据

、、

我正在使用NVIDIA系统cli (nsys)来分析一个简单的cuda程序(向量添加)。我已经查过文件了，但我想我漏掉了什么。我正在使用nsys profile标志运行--stats=true命令。 CUDA API Statistics: Time(%) Total Time (ns) Num Calls Average Minimum Maximum Name ------- --------------- --------- ------------ ---------- ---------- ------------

浏览 5提问于2021-04-07得票数 0

回答已采纳

3回答

库达:停止所有其他线程

、

我有一个似乎可以解决的问题，那就是列举所有可能的解决方案，然后找到最好的解决方案。为了做到这一点，我设计了一个回溯算法，它枚举并存储如果找到的最佳解决方案。到目前为止效果还不错。现在，我想把这个算法移植到CUDA。因此，我创建了一个生成一些不同的基本案例的过程。这些基本案件应在GPU上并行处理。如果其中一个CUDA线程找到了最佳解决方案，那么所有其他线程--当然--都可以停止工作。所以，我想要的是:找到最优解决方案的线程应该停止运行我的程序的所有CUDA线程，从而完成计算。在快速搜索之后，我发现线程只有在同一个块中才能进行通信。(所以我认为阻止其他线程是不可能的。) 我能想到的唯一方法是

浏览 1提问于2010-09-17得票数 3

回答已采纳

1回答

如何以最快的速度将256字节的数据块从一个CUDA块传输到另一个CUDA块？

、、

如何以最快的速度将256字节的数据块从一个CUDA块传输到另一个CUDA块？有没有一种比全局内存更快的传输方式？

浏览 3提问于2012-08-27得票数 0

回答已采纳

1回答

Cuda零拷贝性能

、、、

有没有人有利用零拷贝(此处参考：)内存模型分析CUDA应用程序性能的经验？我有一个使用零拷贝功能的内核，在使用NVVP时，我看到了以下内容：在平均问题大小上运行内核，我得到0.7%的指令重放开销，所以没什么大问题。所有这0.7%都是全局内存重放开销。当我真的增加了问题大小时，我得到了95.7%的指令重放开销，所有这些都是由于全局内存重放开销。然而，正常问题大小内核运行和非常大问题大小内核运行的全局加载效率和全局存储效率是相同的。我真的不确定这个指标的组合是什么。我不确定的主要事情是，NVVP中的哪些统计数据将帮助我了解零复制功能发生了什么。你知道我应该看哪种类型的统计数据吗？

浏览 52提问于2012-12-14得票数 1

回答已采纳

1回答

trainAutoencoder在使用GPU时会减慢速度？

、

我试图利用matlab中的神经网络库进行深入学习。一个好的开始步骤似乎是训练一个自动编码器。在这方面，这将是很好的，看看我是否得到了我的gpu的msot。在这方面，当我运行 tic autoenc1 = trainAutoencoder(allSets,5,... 'L2WeightRegularization',0.001,... 'SparsityRegularization',1,... 'SparsityProportion',0.2,... 'DecoderTransferFunction'

浏览 0提问于2017-03-17得票数 0

回答已采纳

1回答

节省cudaHostAlloc所需的时间

、、

我正在尝试找出在将数据传输到设备之前将数据复制到固定内存是否有意义，因为我对输入数据的分配没有任何影响(这是一个库)。 std::vector<int> idata(WORK_SIZE); int *idata_aligned = NULL; int *d1 = NULL; int *d2 = NULL; for (int i = 0; i < WORK_SIZE; ++i) idata[i] = i; CUDA_CHECK_RETURN(cudaMalloc((void**) &d1, sizeof(int) * WORK_SIZE)); CUDA_CHE

浏览 26提问于2013-01-04得票数 4

1回答

我可以使用Numba共享内存来加速Cupy吗？

、、、、

TypingError: Failed in nopython mode pipeline (step: nopython frontend) Invalid use of Function(<built-in function getitem>) with argument(s) of type(s): (array(float64, 2d, C), Tuple(int64, int32, int64)) * parameterized File "<ipython-input-34-637851842bfe>", line 34: def

浏览 15提问于2020-05-26得票数 1

3回答

CUDA -对矩阵的单个元素进行操作-获得想法

、、

我正在编写一个CUDA内核，以便对矩阵的每个元素执行单个操作(例如，对每个元素进行平方运算，或者求幂，或者如果所有数字都在-1和1之间，则计算正弦/余弦，等等)。我选择了块/线程网格尺寸，我认为代码非常简单明了，但我在问自己…如何才能最大限度地提高合并/SM占用率？我的第一个想法是:使所有的semiwarp (16个线程)从全局内存中加载数据，然后将它们全部放到计算中，但它发现没有足够的内存传输/计算并行化。我的意思是所有线程加载数据，然后计算，然后再次加载数据，然后再次计算。就性能而言，这听起来真的很差。我认为使用共享内存会很棒，也许可以使用某种局部性来使线程加载的数据比它实际需要的更

浏览 0提问于2011-04-04得票数 0

回答已采纳

2回答

模型占用的内存占用是分布式数据并行的两倍。

、、

我有一个模型，它可以在一个GPU上训练得很好。但是当我切换到Pytorch分布式数据并行(DDP)时，我得到了CUDA内存错误。具体来说，与没有并行性的模型相比，DDP模型占用了两倍的内存。下面是一个最小的可重现性示例： import os from torch.nn.parallel import DistributedDataParallel as DDP import torch.distributed as dist import torch.multiprocessing as mp import torch def train(rank, gpu_list, train_dist

浏览 10提问于2021-08-27得票数 2

回答已采纳

1回答

在Google上不使用GPU的Dlib

、、

如何在GPU上强制训练？目前，它只使用CPU，即使我运行dlib.DLIB_USE_CUDA时也是如此，它写的是true。当我运行1时，它还写着print(dlib.cuda.get_num_devices()) 下面是附加的图像，它显示在GPU上没有任何运行，而实际上我正在运行代码：注意: GPU被设置为RUn

浏览 5提问于2020-08-14得票数 3

回答已采纳

1回答

为什么CUDA中的重叠数据传输速度比预期的慢？

当我在特斯拉C2050上运行SDK (4.0)中的simpleMultiCopy时，我得到了以下结果： [simpleMultiCopy] starting... [Tesla C2050] has 14 MP(s) x 32 (Cores/MP) = 448 (Cores) > Device name: Tesla C2050 > CUDA Capability 2.0 hardware with 14 multi-processors > scale_factor = 1.00 > array_size = 4194304 Relevant properti

浏览 2提问于2012-02-09得票数 1

1回答

Torch线性模型在GPU上向前传递比CPU慢4倍

、、

我正在使用torch 7编写AWS GPU实例之一。下面的代码基准测试了一个简单的线性模型的前向传递。gpu的执行速度似乎慢了4倍。我做错了什么？ require 'torch'; require 'nn'; cmd = torch.CmdLine() cmd:option("-gpu", 0) -- gpu/cpu cmd:option("-n_in", 100) cmd:option("-n_out", 100) cmd:option("-n_iter", 1000) params = cm

浏览 0提问于2016-06-12得票数 1

回答已采纳

1回答

OpenCV 3.0上的图形处理器功能在哪里？

、、

据我所知，在CUDA3.0中，模块图形处理器已经被模块OpenCV取代，或者更好的是，它被分成了几个模块。所以cv::gpu::GpuMat已经被cv::cuda::GpuMat取代了，很好。但是函数又如何呢？例如，将以下内容移动到以下位置： cv::gpu::GaussianBlurr ? cv::gpu::Stream stream; stream.enqueueConvert(...) 显然，它们不在cuda模块下(例如。无cv::cuda::GaussianBlurr)。在OpenCV 3.0中可以在哪里找到此功能？

浏览 0提问于2014-11-13得票数 10

回答已采纳

1回答

Python Copy_To_Host Slow

、、、

最近，我已经开始研究如何使用cuda来优化数字数组的搜索。下面我有一段简单的代码来说明这个问题。 import numpy as np import time from numba import cuda @cuda.jit def count_array4(device_array, pivot_point, device_output_array): for i in range(len(device_array)): if (pivot_point - 0.05) < device_array[i] < (pivot_point + 0.05):

浏览 3提问于2019-10-28得票数 1

回答已采纳

1回答

是否需要清除PyTorch中的GPU张量？

、

我是PyTorch新手，我正在探索.to()方法的功能。根据CUDA张量的，我看到可以在CPU和GPU内存之间传输张量。 # let us run this cell only if CUDA is available if torch.cuda.is_available(): # creates a LongTensor and transfers it to GPU as torch.cuda.LongTensor a = torch.full((10,), 3, device=torch.device("cuda")) # transfers i

浏览 0提问于2020-05-15得票数 3

回答已采纳

1回答

基于计算机视觉算法的CUDA性能研究

、、、、

我要在CUDA C编程世界里迈出第一步！作为第一次测试，我编写了一个简单的算法来对图像进行灰度转换和阈值处理(我是计算机视觉和OpenCV的粉丝！)我决定将我的CUDA性能结果与CPU上的类似算法以及相应的OpenCV (cpu)函数进行比较。这里的结果是一个完整的高清视频： Frame Count: 4754 Frame Resolution: 1920x1080 Total time CPU: 67418.6 ms Frame Avg CPU: 14.1814 ms Frame Count: 4754 Frame Resolution: 1920x1080 Total time Op

浏览 3提问于2015-11-18得票数 5

1回答

在分配内存和将数据复制到设备的过程中，PyCuda是否比纯cuda慢？

、

我使用一个1kB的.png文件(即2048x2048 numpy array)来测试我的PyCuda程序，它显示了该程序需要使用1.57s来分配数据并将其复制到设备上。花这么长时间是正常的吗？我想知道PyCuda和Cuda C在分配和内存过程中是否存在性能差异？ (当使用PyCuda时，内核仍然是用C编写的，所以内核执行时间大约是0.17s，所以我觉得准备时间太长了。) 用于分配和存储的代码 img_gpu = cuda.mem_alloc(img.nbytes) cuda.memcpy_htod(img_gpu, img) result_gpu = cuda.mem_alloc(res

浏览 4提问于2017-05-31得票数 1

3回答

GPU对系统RAM的访问

、

我目前正在开发一个大型的科学计算项目，我正在探索用GPU加速硬件以替代MPI/集群方法的可能性。我们处于一个主要是内存绑定的情况下，有太多的数据放在内存中，无法安装在GPU上。为此，我有两个问题： 1)我读过的书说，使用设备上的指针访问主机上的内存是非法的(原因很明显)。相反，必须将内存从主机的内存复制到设备内存，然后进行计算，然后再复制。我的问题是，是否有办法--解决这个问题--有没有办法从GPU读取系统RAM中的值？ 2)更普遍地说，在内存绑定计算过程中，有哪些算法/解决方案可以优化CPU和GPU之间的数据传输？谢谢你在这方面的帮助！我热衷于切换到CUDA，仅仅是因为并行化更直观！

浏览 1提问于2011-03-03得票数 2

回答已采纳

1回答

CUDA和openCV (CPU)矩阵加法性能常数随数值的增加

、、、

通过连续增加元素数和测量运行时，比较了使用简单CPU功能的矩阵加法、CUDA和openCV (on )的性能。我已经绘制了下面的数据。请注意，它是每个数据类型的一个地块，其中CUCV_8U是用于无符号字符、CUCV_16U=unsigned short、CUCV32F=float和CUCV64F=double的宏。我注意到openCV和CUDA的运行时不会增加，直到矩阵大约有2^12元素。在超出“极限”之后，运行时开始发散(注意对数缩放)。现在，我想解释一下这个“限制”。如果它只是为CUDA，我认为这是由于有数量的可用的CUDA核心，这是1024我的GTX 960。当矩阵中的总元素数超过核

浏览 2提问于2022-10-21得票数 2

回答已采纳

1回答

Cuda cudaMemcpy2DArrayToArray没有异步对等项。

我正在使用: cudaMemcpy2DArrayToArray()。是否也有此函数的异步对应项？cudaMemcpy2DArrayToArrayAsync()不存在。我想要避免我的cuda操作的隐式同步。

浏览 0提问于2013-04-18得票数 1

回答已采纳

1回答

在多个GPU上启动异步内存复制接口

、、

我想对主机上的数据数组进行分割&复制到多个gpus的设备内存中。另外，我想同时执行所有这些复制操作。为此，我使用cudaMemcpyAsync，我在每个GPU的私有流中启动它。这里是我正在做的事情(代码中的怀疑以注释开始?？) #define SIZE 1000 #define GPUCOUNT 2 int* hostData = nullptr; int *devData[GPUCOUNT]; cudaStream_t stream[GPUCOUNT]; // Create one stream per GPU for ( int i=0; i != GPUCOUNT ; +

浏览 2提问于2015-01-13得票数 1

回答已采纳

1回答

在CPU上运行Tensorflow比在GPU上运行它快

、、、、

我有一个ASUS n552vw笔记本电脑，有一个4GB专用的Geforce GTX 960图形卡。我把这些代码放在代码的开头，比较使用GPU或CPU的训练速度，我看到似乎使用CPU赢了！ GPU： import os os.environ['CUDA_VISIBLE_DEVICES'] = '0' CPU： import os os.environ['CUDA_VISIBLE_DEVICES'] = '-1' 我已经安装了CUDA，cuDNN，tensorflow-gpu等来提高我的训练速度，但似乎相反的事情发生了！当我尝试第一

浏览 0提问于2019-08-02得票数 2

回答已采纳

6回答

在多个设备之间共享数据？

在CUDA C编程指南中，有人说 ...通过设计，主机线程在任何给定的时间只能在一个设备上执行设备代码。因此，需要多个主机线程在多个设备上执行设备代码。此外，在一个主机线程中通过运行时创建的任何CUDA资源都不能被运行时从另一个主机线程中使用. 我想做的是让两个GPU共享主机上的数据(映射内存)，但手册似乎表明这是不可能的。有什么解决办法吗？

浏览 4提问于2010-11-10得票数 4

回答已采纳

2回答

在哪里可以找到有关CUDA 4.0中的统一虚拟寻址的信息？

在哪里可以找到有关使用CUDA 4.0中的新增强功能的信息/变更集/建议？我对了解统一虚拟寻址特别感兴趣。注意:我真的很想看到一个例子，因为我们可以直接从GPU访问RAM。

浏览 0提问于2011-03-10得票数 2

1回答

CUDA NPP max返回错误的输出。

、、

我正在使用下面的代码来测试CUDA NPP max函数。 #include <string.h> #include <fstream> #include <iostream> #include <stdio.h> #include <time.h> #include <stdlib.h> #include <string> #include <math.h> #include <assert.h> #include "cuda_runtime.h" #include &

浏览 2提问于2021-08-21得票数 1

回答已采纳

1回答

火炬。pin_memory在Dataloader中是如何工作的？

、、

我想了解一下Dataloader中的pin_memory是如何工作的。根据文档： pin_memory (bool, optional) – If True, the data loader will copy tensors into CUDA pinned memory before returning them. 下面是一个自包含的代码示例。 import torchvision import torch print('torch.cuda.is_available()', torch.cuda.is_available()) train_dataset = torc

浏览 0提问于2019-04-08得票数 26

回答已采纳

2回答

CUDA 4.0 RC -每一个GPU有多个主机线程- cudaStreamQuery和cudaStreamSynchronize行为

、、

我写了一个代码，它使用许多主机(OpenMP)线程每一个图形处理器。每个线程都有自己的CUDA流来对其请求进行排序。它看起来与下面的代码非常相似： #pragma omp parallel for num_threads(STREAM_NUMBER) for (int sid = 0; sid < STREAM_NUMBER; sid++) { cudaStream_t stream; cudaStreamCreate(&stream); while (hasJob()) { //... code to prepare job - dD

浏览 0提问于2011-03-08得票数 1

回答已采纳

1回答

内核启动和内核执行之间的时间

、、

我正在尝试使用VS2010的Parallel Nsight 2.1版本来优化我的CUDA程序。我的程序在装有GTX 480板的Windows 7 (32位)计算机上运行。我已经安装了CUDA 4.132位工具包和301.32驱动程序。程序中的一个周期包括主机数据到设备的拷贝、内核的执行以及从设备到主机的结果拷贝。正如您在下面的分析器结果图片中所看到的，内核运行在四个不同的流中。每个流中的内核依赖于复制到“流2”中的设备的数据。这就是为什么在不同的流中启动内核之前asyncMemcpy与CPU同步的原因。图中让我恼火的是第一次内核启动结束( 10.5778679285)和内核执

浏览 3提问于2012-08-30得票数 4

回答已采纳

3回答

降低CPU到GPU数据传输延迟的技术

、、、、

我一直在寻找减少从CPU和GPU来回传输数据所导致的延迟的方法。当我第一次开始使用CUDA时，我确实注意到CPU和GPU之间的数据传输确实需要几秒钟的时间，但我并不真正关心，因为这并不是我正在编写的小程序真正关心的问题。事实上，对于绝大多数使用CPU的程序(包括视频游戏)来说，延迟可能不是什么大问题，因为它们仍然比在CPU上运行要快得多。然而，我是一个HPC爱好者，当我看到天河一号理论峰值故障与实际LINPACK测量性能之间的巨大差异时，我开始关注我的研究方向。这引发了我对自己是否走对了职业道路的担忧。通过使用cudaHostAlloc()函数来使用固定内存(页面锁定)内存是一种减少延迟的

浏览 10提问于2011-06-28得票数 15

回答已采纳

1回答

库达FFT计划跨多个“重叠”CUDA流重复使用

、、

我正在尝试使用与GPU计算重叠的异步内存传输来提高代码的性能。以前我有一个代码，在这里我创建了一个FFT计划，然后多次使用它。在这种情况下，花费在创建CUDA FFT计划上的时间是可以忽略不计的，根据这个，它可能是相当重要的。现在我移到流中，我正在做的是多次创建“相同的”计划，然后设置CUDA FFT流。根据你们中的一些人在这个中给出的答案，这是浪费的。但是，还有别的办法吗？注意:我正在实时获取数据，所以启动一个“批量”CUDA FFT是不可能的。我正在做的是创建和lauch一个新的CUDA流作为一个完整的脉冲传输的结果。注2:我也在考虑使用"CUDA流/FFT计划“的”池“，

浏览 2提问于2015-03-04得票数 1

回答已采纳

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

1回答

关于在核心上工作的CUDA向量

、

我将使用CUDA在GPU上实现一种创建3D模型的方法。我几年前就这样做了，但我想CUDA是从那时起发展起来的，所以我试着得到一些关于如何最好地做我将要做的事情的投入。在我的C++版本中，我有一个体素向量，其中Voxel是一个包含浮点数的结构。向量应该表示一个完整的网格，我将对每个体素进行独立的计算。之前，为了能够访问设备上的体素，我必须使用指针和cudaMalloc等等。我正在考虑是否有一些新的功能我可以使用。在实际的内核中是否可以使用类似于向量的东西？推力是不合适的，因为它应该是从主机调用。更有趣的是，是否可以在设备上进行动态内存分配，这样我就可以在GPU上实现类似octree之类的

浏览 0提问于2015-08-17得票数 1

回答已采纳

2回答

Cuda优化技术

、

我已经编写了一段CUDA代码来解决NP-Complete问题，但性能并不像我怀疑的那样好。我知道“一些”优化技术(使用共享内存、纹理、零拷贝...) CUDA程序员应该知道的最重要的优化技术是什么？

浏览 1提问于2010-06-22得票数 1

回答已采纳

1回答

如何理解查询默认流时的cudaStreamQuery行为？

从中，我知道cudaStreamQuery在异步流上运行：查询异步流的完成状态。我编写了一个简单的程序来测试它在“默认流”上的行为： #include <cstdlib> #include <iostream> #define cudaSafeCall(call) \ do {\ cudaError_t err = call;\ if (cudaSuccess != err) \ {\ std::cerr << "CU

浏览 0提问于2018-12-22得票数 0

回答已采纳