CUDA:将参数传递给内核是否会减慢内核的启动速度？ - 腾讯云开发者社区

、、

在CUDA中，向内核传递统一内存指针会减慢程序运行速度吗？为什么传递一个指针需要花费太多的时间？指针？我

浏览 8提问于2017-06-15得票数 0

回答已采纳

2回答

CUDA内核的参数

、

当为特定的线程配置调用CUDA内核时，是否有任何严格的规则在哪些内存空间(设备/主机)内核参数中驻留以及它们应该是什么类型？假设我启动了一个一维线程网格我可以将整数参数int foo直接传递给CUDA<

浏览 4提问于2011-11-28得票数 8

回答已采纳

2回答

CUDA:向内核传递参数会大大减慢内核的启动速度吗？

、

这里是CUDA初学者。MyKernel<<<blocks,threadsperblock>>>(double_ptr, double_ptr, int N, double x);

浏览 5提问于2011-06-28得票数 6

回答已采纳

2回答

启动单个CUDA内核的多个主机线程

、

对于我的CUDA开发，我使用了一台16核的机器，1个GTX 580 GPU和16个SMs。对于我正在做的工作，我计划启动16个主机线程(每个核心上1个)，每个线程1个内核启动，每个线程有1个块和1024个线程。我的目标是在16个SMs上并行运行16个内核。这是可能/可行的吗？我试图尽可能多地阅读有关独立上下文的信息，但似乎没有太多的信息可用。据我所知，每个主机线程都可以有

浏览 11提问于2012-09-06得票数 9

回答已采纳

2回答

CUDA -每次都需要分配和释放内存吗？

、、

我有一个带有CUDA的卷积内核，它经常被调用(它用于实时渲染)。我应该在每次调用内核时都使用cudaMalloc和cudaFree吗？我试图存储一个指向cudaMalloc结果的指针，并在内核执行之前通过cudaMemcpy继续操作，但我遇到了奇怪的行为(比如内核执行后内存清空)。我也在考虑使用固定内存，但如果我每次都必须分配和释放它，这甚至可能会减慢应用程序的速度。我应该如何处理

浏览 11提问于2012-04-13得票数 0

回答已采纳

1回答

消除内核调用之间的cudaMemcpy

我有一个被多次调用的CUDA内核(100万不是限制)。我们是否再次启动内核取决于标志(result_found)，即内核返回。sizeof(bool), cudaMemcpyDeviceToHost); break;} 分析器说，cudaMemcpy比实际内核调用(cudaMemcpy：~88 to，cudaLaunch：~17 to)花费更多的时间来执行。因

浏览 1提问于2015-11-23得票数 0

回答已采纳

1回答

在第二个内核上出现cuda“无效参数”错误

我有一个关于内核启动的问题。我有一个使用一个大内核的程序。现在，由于同步问题，我需要将其一分为二。第一个内核做一些初始化工作，并将传递给第二个内核的参数子集传递给第二个内核。只运行第一个内核就可以了。在执行第二个内核时，仅运行第二个内核会失败，这是因为缺少初始化，但内核本身已启动</e

浏览 3提问于2012-12-22得票数 0

回答已采纳

1回答

在Numba中实现cuda* gridsync()安全吗*

、、、

如果cudaKernal1的执行速度非常快，那么以下代码的运行速度将提高1000倍 X = X + cudaKernel1[(100,100),(32,32)] (X) 通过将循环放在同一个内核中，避免了gpu内核的设置时间。然而，如果每一步都非常快，那么调用内核所需的时间比调用内核要长，所以如果您可以循环执行这些步骤而不退出，那

浏览 0提问于2019-02-10得票数 0

2回答

如果使用cuda-memcheck，则会出现Cuda内核错误

、

我有一个Cuda内核，如果我使用nsight cuda分析器，或者如果我直接从终端运行它，它运行得很好。但是如果我使用这个命令它会崩溃，并显示“未指明的启动失败”。我在每个内核代码之后都会用到这个。我注释掉了另一个由于寄存器太多而没有启动的内核</e

浏览 1提问于2013-07-10得票数 1

回答已采纳

1回答

意外的CUDA_ERROR_INVALID_VALUE从cuLaunchKernel()

、

我试图使用CUDA驱动程序API启动一个内核。现在，对于我的一个内核，我得到了CUDA_ERROR_INVALID_VALUE。文档如果使用kernelParams和extra指定内核参数(即kernelParams和extra都是非NULL)，则将返回错误NULL。好吧，我不会那么做的，而且我还在拿CUDA_ERROR_INVALID_VALUE。为了更安全起见，我在启动内核

浏览 10提问于2020-08-16得票数 0

1回答

为什么我的相当琐碎的CUDA程序会因为某些参数而出错？

、

我做了一个简单的CUDA程序来练习。它只是将数据从一个数组拷贝到另一个数组：import pycuda.autoinitfrom pycuda.compilerblock and grid sizes.grid_size = (N / block_size_x, 1) # Create the CUDA_driver.Logi

浏览 1提问于2012-11-02得票数 1

回答已采纳

2回答

cuLaunchKernel和CUDA_ERROR_INVALID_HANDLE失败的原因是什么？

、

我正在使用cudLaunchKernel()驱动程序API函数启动我编译的CUDA内核。我在kernelParams数组中传递参数，并将nullptr传递给extra参数。不幸的是，这失败了，错误是：CUDA_ERROR_INVALID_HANDLE。为什么？我检查了，看看函数在什么情况下可能会失败，编辑--它用CUDA_ERROR_INVALID_VALUE讨论失败(不是一回事)。它没有讨论我所犯

浏览 6提问于2020-07-07得票数 1

回答已采纳

1回答

CUDA和图形内核的执行顺序

、

我有一个类似这样的代码。我的问题是。CUDA API保证CUDA内核即使是异步的，也会按启动顺序执行。这是否适用于渲染？假设我在GPU上进行了一些渲染相关的计算。如果我启动异步CUDA

浏览 3提问于2014-02-07得票数 1

1回答

启动多个CUDA内核是否需要为每个内核返回主机？

、

如果我在相同的上下文中启动多个CUDA内核，并且内核之间存在依赖关系(输入中的第一个内核输出到第二个内核，等等)，那么在每个内核完成执行后，控制是否会返回到主机？如果没有，您能简要描述一下CUDA卡上的“内核入队”机制是如何工作的吗？

浏览 1提问于2015-02-18得票数 0

1回答

向cuLaunchKernel传递参数的有效方法？

CUDA提供了三种指定内核参数的方法。选项1将导致N个GPU访问，而选项2将只导致一个？如果选项1为真，CUDA会重新访问GPU来设置参数，即使它的值没有改变，跨

浏览 3提问于2014-09-11得票数 1

回答已采纳

4回答

什么时候打电话给cudaDeviceSynchronize？

、、

据我从CUDA文档中了解到，CUDA内核是异步的，因此我们似乎应该在每次内核启动后调用cudaDeviceSynchronize。然而，除了在时间测量之前，我尝试了与任何cudaDeviceSynchronize相同的代码(训练神经网络)。我发现我得到了同样的结果，但是速度在7-12倍之间(取决于矩阵的大小)。因此，问题是，除了时间测量之外，是否有任何理由使用cudaDeviceSynchroniz

浏览 15提问于2012-08-09得票数 84

4回答

将整数从GPU复制到CPU

在每次内核调用之后，我需要将单个布尔值或整数值从设备复制到主机(我在for循环中调用相同的内核)。也就是说，在每次内核调用之后，我需要将一个整数或布尔值发送回主机。做这件事最好的方法是什么？我应该将值直接写入RAM吗？或者我应该使用cudaMemcpy()？或者，有没有其他方法可以做到这一点？在每次内核启动后只复制1个整数会减慢我的程序吗？

浏览 2提问于2011-03-15得票数 5

1回答

内核参数类型必须满足哪些确切的约束？

、、、

在编写CUDA内核时，常见的智慧是坚持使用类型的参数-因为启动内核意味着将参数复制到设备上的常量内存(可能稍后还会复制到特定于线程的寄存器)。但是，这是内核(__global__函数)参数的充分必要条件吗？我在CUDA编程指南和C++最佳实践指南中都找不到这一点。

浏览 1提问于2021-05-30得票数 1

1回答

指定流的内核启动，但使用默认共享内存大小

、、、

我需要在CUDA中指定内核启动的流。内核使用一些共享内存，其大小在内核代码中定义。words[cBlockSize/16];} 但是，在内核启动表达式中，共享内存大小参数位于stream参数之前。那么，如何告诉CUDA使用<e

浏览 10提问于2016-09-12得票数 0

回答已采纳

1回答

将C++对象传递给CUDA内核

、、

我有一段代码，它由我没有修改权限的对象组成。另一方面，我必须编写CUDA内核来做一些计算。目前，我正在将所需的信息转换为数组或结构，并将其传递。是否可以将这样的对象传递给CUDA内核，以及CUDA内核是否有方法访问该类的私有成员。有些人也向我提出了推力。

浏览 2提问于2012-06-24得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将统一内存指针传递给内核会减慢程序的运行速度

CUDA内核的参数

CUDA:向内核传递参数会大大减慢内核的启动速度吗？

启动单个CUDA内核的多个主机线程

CUDA -每次都需要分配和释放内存吗？

消除内核调用之间的cudaMemcpy

在第二个内核上出现cuda“无效参数”错误

在Numba中实现cuda* gridsync()安全吗*

如果使用cuda-memcheck，则会出现Cuda内核错误

意外的CUDA_ERROR_INVALID_VALUE从cuLaunchKernel()

为什么我的相当琐碎的CUDA程序会因为某些参数而出错？

cuLaunchKernel和CUDA_ERROR_INVALID_HANDLE失败的原因是什么？

CUDA和图形内核的执行顺序

启动多个CUDA内核是否需要为每个内核返回主机？

向cuLaunchKernel传递参数的有效方法？

什么时候打电话给cudaDeviceSynchronize？

将整数从GPU复制到CPU

内核参数类型必须满足哪些确切的约束？

指定流的内核启动，但使用默认共享内存大小

将C++对象传递给CUDA内核

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐