无法理解CUDA内核启动的行为

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一种并行计算平台和编程模型，用于利用GPU进行高性能计算。CUDA内核启动是指在GPU上执行的并行计算任务。

在CUDA中，内核是由一系列线程组成的，每个线程都执行相同的指令，但可以通过线程索引来访问不同的数据。内核启动时，线程被组织成一个二维或三维的线程块结构，每个线程块包含多个线程。线程块又被组织成一个二维的线程网格结构。

CUDA内核启动的行为可以通过以下几个方面来理解：

并行度：CUDA内核启动时，线程可以以线程块为单位并行执行。线程块中的线程可以同时访问全局内存，并且可以通过共享内存进行通信和协作。线程块之间也可以通过全局内存进行通信。
线程索引：每个线程都有一个唯一的线程索引，可以用来访问不同的数据。线程索引可以通过内置变量threadIdx来获取。
内存访问：CUDA内核可以访问全局内存、共享内存和局部内存。全局内存是所有线程共享的，可以在不同的线程块之间进行通信。共享内存是线程块内部共享的，可以用来加速数据访问。局部内存是每个线程私有的，用于存储临时变量。
同步：在CUDA内核中，可以使用同步原语来控制线程的执行顺序。例如，可以使用__syncthreads()函数来同步线程块内的所有线程。
错误处理：在CUDA内核中，可以使用错误处理机制来检测和处理运行时错误。可以使用cudaGetLastError()函数来获取最后一个发生的错误。

CUDA内核启动的行为可以根据具体的应用场景和需求进行优化。可以通过合理的线程块大小、共享内存的使用和数据访问模式的优化来提高性能。

腾讯云提供了一系列与GPU计算相关的产品和服务，例如腾讯云GPU云服务器、GPU容器服务等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多相关信息。

页面内容是否对你有帮助？

有帮助

没帮助

CU_CTX_SCHED_BLOCKING_SYNC使内核同步吗？

、、、

使用CU_CTX_SCHED_BLOCKING_SYNC创建CUDA上下文是否使CUDA内核实际上是同步启动的(即将CPU线程作为正常的CPU启动相同的线程功能)？文件只说明 CU_CTX_SCHED_BLOCKING_SYNC:在等待GPU完成工作时，指示CUDA阻塞同步原语上的CPU线程。但我不确定我是否理解得对。

浏览 0提问于2018-05-24得票数 2

回答已采纳

1回答

Python Copy_To_Host Slow

、、、

最近，我已经开始研究如何使用cuda来优化数字数组的搜索。下面我有一段简单的代码来说明这个问题。 import numpy as np import time from numba import cuda @cuda.jit def count_array4(device_array, pivot_point, device_output_array): for i in range(len(device_array)): if (pivot_point - 0.05) < device_array[i] < (pivot_point + 0.05):

浏览 3提问于2019-10-28得票数 1

回答已采纳

1回答

映射内存:设备->主机写入在主机上不可见

我想要做的是修改一个驻留在映射内存中的变量，该变量将导致主程序退出。但是，主程序没有这样做，而是继续在while (var == 0) ;线上旋转。我不知道新的值是如何被冲掉的，这样它在主机端也是可见的。顺便说一句。变量在任何地方都声明为volatile，我尝试使用__threadfence_system()函数，但没有成功。主机->设备方向工作良好。系统: Windows 7 x64驱动程序358.50 GTX 560 下面是我无法工作的代码： static void handleCUDAError(cudaError_t err, const char *file, int

浏览 0提问于2015-10-31得票数 0

回答已采纳

2回答

在CUDA 5中对全局设备内存进行自动越界检查？

、

我最近安装了CUDA 5(如果重要的话，我正在使用Visual Studio2010学习版)。当我试图在内核中的全局内存设备阵列上执行越界读访问时，CUDA现在给我一个错误(错误30‘未知错误’)。我想知道这个看似自动越界的错误检查是否是CUDA 5的新功能。我不记得在早期版本中见过它。此外，有没有办法关闭这种自动越界错误检查？启用此功能将迫使我向内核添加额外的条件逻辑(而在此之前，我不会使用越界结果)。谢谢, Aaron

浏览 0提问于2012-12-13得票数 1

1回答

NVIDIA安培GPU架构兼容性

请任何人帮助我理解NVIDIA设备系列30安培架构和兼容的CUDA版本？从这里到整个网络，我了解到在CUDA工具包中添加了对安培的v11支持：我不明白的是，这样做有什么意义：部分 “1.3.1.使用CUDA工具包10.2或更早版本构建的应用程序” 那么，‍♂️是否适用于CUDA 10.1呢？非常感谢

浏览 9提问于2022-11-30得票数 1

1回答

CUDA内核未在CudaDeviceSynchronize之前启动

我在使用并发CUDA时遇到了一些问题。请看附件中的图像。内核在标记点启动，即0.395秒。然后是一些绿色的CpuWork。最后，还有一个对cudaDeviceSynchronize的调用。在CpuWork之前启动的内核不会在synchronize调用之前启动。理想情况下，它应该与CPU并行运行。 void KdTreeGpu::traceRaysOnGpuAsync(int firstRayIndex, int numRays, int rank, int buffer) { int per_block = 128; int num_blocks = numRays/

浏览 1提问于2012-11-27得票数 2

回答已采纳

1回答

CUDA统一内存可以被另一个CPU线程写入吗？

、、

我正在编写一个程序，从相机中检索图像并用CUDA处理它们。为了获得最好的性能，我将一个CUDA统一内存缓冲区传递给图像获取库，该库在另一个线程中写入缓冲区。这会导致各种奇怪的结果，在我无法访问的库代码中对挂起的代码进行编程。如果我使用普通内存缓冲区，然后复制到CUDA，问题就解决了。因此，我开始怀疑不允许从另一条线上写东西，于是就像我一样在谷歌上搜索，找不到明确的答案。那么，是否允许从另一个CPU线程访问统一内存缓冲区？

浏览 5提问于2019-02-08得票数 2

回答已采纳

1回答

为什么numba cuda在几次召回之后跑得很慢？

、、、、

我在实验如何使用numba内部的cuda。然而，我遇到了一些与我期望不同的事情。这是我的密码 from numba import cuda @cuda.jit def matmul(A, B, C): """Perform square matrix multiplication of C = A * B """ d=cuda.local.array((3,3),dtype=numba.float64) i, j = cuda.grid(2) if i < C.shape[0] and j < C.shape[1]: tmp

浏览 4提问于2018-09-10得票数 3

回答已采纳

1回答

禁用CUDA程序中的所有异步执行

、

根据CUDA编程指南，您可以通过设置环境变量(CUDA_LAUNCH_BLOCKING=1)在运行时禁用异步内核启动。这是一个很有用的调试工具。我还想确定在我的代码中使用并发内核和传输的好处。我还想禁用其他并发调用，特别是cudaMemcpyAsync。除了内核启动之外，CUDA_LAUNCH_BLOCKING还会影响这些类型的调用吗？我想不会。最好的替代方案是什么？我可以添加cudaStreamSynchronize调用，但我更喜欢运行时解决方案。我可以在调试器中运行，但这会影响计时并违背目的。

浏览 0提问于2011-01-19得票数 5

1回答

CUDA-GDB:无CUDA设备

、

我正在尝试调试一个源代码，它工作得很好，并且在编译时不会出现错误或警告。问题是，当我使用cuda-gdb一步一步地运行它时，根本没有启动CUDA内核(我从调试器得到的输出与Nvidia cuda-gdb指南中显示的完全不同)，但程序仍然可以正常工作，没有任何错误。在任何时候我都得不到CUDA内核、设备或线程。显然，焦点也没有放在任何事情上。我使用的是CUDA-GDB的4.2版本。这是我在调试器应该启动内核时得到的结果： Breakpoint 1, matrixMulGPU (M=0x609160, N=0x609270, P=0x609490, Width=8) at matrixM

浏览 5提问于2012-07-24得票数 0

1回答

理解CUDA依赖检查

CUDA编程指南提供了以下语句：对于支持并发内核执行且具有计算能力3.0或更低版本的设备，任何需要进行依赖项检查以查看流内核启动是否完成的操作：只有当所有先前内核的线程块从CUDA上下文中的任何流开始执行时，‣才能开始执行； ‣阻止所有后续内核从CUDA上下文中的任何流启动，直到正在检查的内核启动完成为止。我在这里迷路了。什么是依赖检查？我是否可以说，在某些设备内存上执行内核需要对所有以前的内核进行依赖检查，或者对涉及相同设备内存的内存进行传输？如果这是真(可能不是真)，则根据上述语句，此依赖项检查将阻塞来自任何其他流的所有以后的内核，因此以后不会发生异步或并发执行，这似乎不正确

浏览 2提问于2013-02-26得票数 1

回答已采纳

1回答

CUDA与OpenCL性能比较

、

我使用的是CUDA6.0和与CUDA捆绑在一起的OpenCL实现。对于每个平台，我有两个相同的内核(它们在特定于平台的关键字上有所不同)。它们只读写全局内存，每个线程都有不同的位置。CUDA的启动配置是200 blocks of 250 threads (1D)，它直接对应于OpenCL - 50,000 global work size and 250 local work size的配置。 OpenCL代码运行得更快。这是可能的吗?还是我选错了时机？我的理解是，NVIDIA的OpenCL实现是基于CUDA的。我使用OpenCL获得了大约15%的性能提升。如果你能建议我为什么会看到这一点，

浏览 0提问于2014-05-06得票数 19

1回答

启动多个内核时阻止CUDA流(>1000)

我发现当我启动很多内核(超过1000个)时，CUDA流会阻塞。我想知道有没有我可以更改的配置？在我的实验中，我启动了一个小内核10000次。这个内核运行得很快(大约190us)。当启动前1000个内核时，内核启动非常快。启动一个内核需要4~5us。但在那之后，启动过程就会变得缓慢。启动一个新内核大约需要190us。CUDA流似乎在等待前一个内核完成，缓冲区大小约为1000内核。当我创建3个流时，每个流可以异步启动1000个内核。我想让这个缓冲区更大。我尝试设置cudaLimitDevRuntimePendingLaunchCount，但它不起作用。有什么办法吗？ #include <

浏览 18提问于2018-12-29得票数 0

回答已采纳

2回答

如果使用cuda-memcheck，则会出现Cuda内核错误

、

我有一个Cuda内核，如果我使用nsight cuda分析器，或者如果我直接从终端运行它，它运行得很好。但是如果我使用这个命令 cuda-memcheck --leak-check full ./CudaTT 1 ../../file.jpg 它会崩溃，并显示“未指明的启动失败”。我在每个内核代码之后都会用到这个。 e=cudaDeviceSynchronize(); if (e != cudaSuccess) printf("Fail in kernel 2 %s",cudaGetErrorString(e)); cuda-memcheck显示了其中的几个 =======

浏览 1提问于2013-07-10得票数 1

回答已采纳

1回答

重载cuda内核函数

、、、

在CUDA中使用重载的内核函数时，我遇到了一个问题。我可以理解CUDA可以通过它的参数启动一个重载函数。但是，如果我想使用cudaOccupancyMaxPotentialBlockSize()计算最大占用率的块大小，请参阅doc。 __global__ void foo_cuda_kernel(int a) { /*implementation 1*/ } //overloaded kernel function __global__ void foo_cuda_kernel(int a, int b) { /*implementation 2*/ } void foo_c

浏览 33提问于2021-01-21得票数 0

1回答

在CUDA编程中，如何理解GPU内核是否完成了它的任务？

在CUDA编程中，假设我从主机调用一个内核函数。假设核函数是， my_kernel_func(){ doing some tasks utilizing multiple threads } 现在我把它叫做主机， my_kernel_func<<<grid,block>>>(); 在NVDIA的例子中，他们后来又调用了三个函数， cudaGetLastError() CUDA文档:返回同一主机线程中任何运行时调用产生的最后一个错误，并将其重置为cudaSuccess.。 cudaMemcpy() cudaMemcpyDefault. CUDA Doc :

浏览 0提问于2019-10-27得票数 1

回答已采纳

1回答

可以在单个CUDA内核中启动的最大线程数

、、

我对在费米GPU中可以启动的最大线程数感到困惑。我的GTX 570设备查询如下。 Maximum number of threads per block: 1024 Maximum sizes of each dimension of a block: 1024 x 1024 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 65535 根据我的理解，我认为上述声明如下：作为一个CUDA内核，我们最多可以启动65536块。每个启动的块可以包含多达1024个线程。因此，

浏览 3提问于2012-08-22得票数 14

回答已采纳

2回答

如果一次又一次地使用相同的输入运行同一个内核，那么是否完成了优化？

、

如果我使用相同的输入运行同一个内核几次，如下所示 #define N 2000 for(int i = 0; i < 2000; i++) { mykernel<<<1,120>>>(...); } 会发生什么？我给它计时，玩N：把N减半(到1000)，把花的时间减半。然而，我认为它只是运行了2000次内核，这是有点谨慎的，因为从非CUDA代码到非CUDA代码的速度是如此惊人(~900秒~0.9秒)。那么，在这种情况下，CUDA会做什么样的优化呢？缓存结果？设置CUDA_LAUNCH_BLOCKING=1并没有改变什么。 mykernel取

浏览 4提问于2011-05-11得票数 0

1回答

使设备内存访问与主机线程同步

、、

CUDA内核有没有可能在没有任何主机端调用(例如，cudaDeviceSynchronize)的情况下同步写入设备映射内存？当我运行下面的程序时，内核似乎并没有等待设备映射内存的写入完成后才终止，因为在内核启动后立即检查页面锁定的主机内存并没有显示内存的任何修改(除非插入了延迟或者未注释对cudaDeviceSynchronize的调用)： #include <stdio.h> #include <cuda.h> __global__ void func(int *a, int N) { int idx = threadIdx.x; if (idx

浏览 1提问于2012-12-05得票数 4

回答已采纳

1回答

当同时使用numba.cuda和CuPy时，为什么从GPU传输数据的速度这么慢？

、、、

我阅读了cupy文档中关于如何同时使用cupy和numba以及如何使用cuda加速代码的示例。我编写了一个类似的代码来测试它： import cupy from numba import cuda import numpy as np import time @cuda.jit('void(float32[:], float32[:], float32[:])') def add(x, y, out): start = cuda.grid(1) stride = cuda.gridsize(1) for i in range(

浏览 3提问于2020-07-09得票数 0

回答已采纳

1回答

Cuda中的嵌套并行

、、、

在下面的代码中，我想使用嵌套并行计算10次数组元素。我使用这个简单的例子来学习更多关于Cuda中的动态并行性的知识。代码的工作方式是，对于parentArray的每个元素，有另一个内核将该元素保存在childArray (0到9)的位置。因此，对于parentArray的每个元素，我有另一个包含10个元素的数组，每个元素都等于parentArray的元素。最后，计算所有childArrays的和，并将结果保存在parentArray中。因此，其结果应该是： parentArray元素0，结果=0 parentArray元素1，结果= 10 元素2，结果= 20，依此类推目前，代码编译，但没

浏览 5提问于2015-11-09得票数 0

回答已采纳

1回答

cudaLaunchKernel如何知道"void **args“的数组大小？

、、

我知道使用以下代码可以获得数组的大小： int a = 12; float b = 12.0f; char c = 'c'; void *param[] = { (void*)&a, (void*)&b, (void*)&c }; // the element size of param size_t size = sizeof(param)/sizeof(void*); 但是现在，我希望将param传递给一个名为TryToGetTheSize的函数，并将其大小作为返回值。 size_t TryToGetTheSize(void **array) {

浏览 1提问于2018-12-25得票数 2

回答已采纳

3回答

cuda编程问题

我对cuda非常陌生，我在我的ubuntu 10.04上以设备仿真模式使用cuda。我写了一个代码来计算数组的平方，如下所示： #include <stdio.h> #include <cuda.h> __global__ void square_array(float *a, int N) { int idx = blockIdx.x + threadIdx.x; if (idx<=N) a[idx] = a[idx] * a[idx]; } int main(void) { float

浏览 2提问于2011-05-16得票数 0

3回答

使用针对GPU的CUDA同时启动多个内核

、、

是否可以同时启动两个执行独立任务的内核。例如，如果我有这个Cuda代码 // host and device initialization ....... ....... // launch kernel1 myMethod1 <<<.... >>> (params); // launch kernel2 myMethod2 <<<.....>>> (params); 假设这些内核是独立的，有没有一种工具可以同时启动它们，为每个内核分配几个网格/块。CUDA/OpenCL是否有此规定。

浏览 0提问于2010-06-14得票数 5

1回答

内核发射的CudaEvent定时

、

我试图解释我使用CudaEvents所做的一些时间安排，通过CudaEvents执行内核的定时是否也包括内核启动的开销时间？不幸的是，我已经无法访问与Cuda兼容的GPU来对其进行任何测试。非常感谢

浏览 2提问于2013-10-15得票数 2

回答已采纳

1回答

库达定时器- CPU对GPU？

我试图理解使用CUDA定时器(事件)和常规CPU定时方法(gettimeofday在Linux上等)执行内核定时之间的区别。通过阅读第8.1节，我觉得唯一真正的区别是，当使用CPU计时器时，需要记住同步GPU，因为调用是异步的。想必CUDA事件API会为您做这件事。所以，这是否真的是一个问题：对于GPU事件，不需要显式调用cudaDeviceSynchronize 通过GPU事件，您可以获得一个固有的独立于平台的定时API，而对于CPU，您需要在每个操作系统中使用不同的API。提前感谢

浏览 2提问于2013-12-21得票数 0

回答已采纳

1回答

如何调试java(jcuda)程序调用的内核

、、、

有任何方法来调试java (jcuda)调用的cuda函数吗？我的程序启动这个异常： Exception in thread "main" jcuda.CudaException:CUDA_ERROR_ILLEGAL_ADDRESS at jcuda.driver.JCudaDriver.checkResult(JCudaDriver.java:288) at jcuda.driver.JCudaDriver.cuCtxSynchronize(JCudaDriver.java:1852) at CalculateurGPU.updateAndCompute(rGPUcalcu

浏览 0提问于2015-04-17得票数 0

回答已采纳

1回答

使用nsight的“启动CUDA调试”时忽略的断点

、、、

使用“本地Windows”时，Visual 2013中的.cu文件中的断点工作正常。但在使用nsight的“启动CUDA调试”时，断点被忽略了。这怎麽可能？在nsight的网站上，他们写道：“使用熟悉的Visual局部变量、手表、内存和断点窗口”。所以我想正常的断点可以用吗？编辑： Enable CUDA Memory Checker：开/关没什么区别 Generate GPU Debug Information：不/是(-G0)没有区别 Start CUDA/Graphics debugging：断点被忽略

浏览 4提问于2015-08-30得票数 2

回答已采纳

1回答

影响CUDA内核启动时间的因素有哪些

、

我有一组CUDA内核。每个内核在不到10微秒的时间内完成它的工作，然而，它的启动时间是50-70微秒。我怀疑纹理内存的使用可能是原因，因为它在我的内核中使用。有什么建议可以减少CUDA内核的启动时间吗？一般来说，影响内核启动时间的因素有哪些？

浏览 0提问于2017-05-11得票数 1

2回答

OpenAcc标准中内核和并行指令的区别

、、、

我已经使用支持OpenAcc的PGI编译器在GPU上启动了大约3年的代码，但是到目前为止，我无法理解“内核”和“并行”这两个术语之间的区别。我在“OpenAcc入门指南”中读到：并行构造定义应该编译以便在加速器设备上并行执行的程序区域。核构造定义程序的区域，该区域应该被编译成一系列内核，以便在加速器设备上执行。我不明白“加速器设备上的并行执行”和“编译成一系列用于在加速器设备上执行的内核”之间的区别。如果加速器设备是GPU，那么所有的代码都编译成某种大小的CUDA内核(我的意思是CUDA网格和块)，这些CUDA内核是在CUDA线程中在GPU上执行的，不是吗？内核的“序列”是什

浏览 1提问于2019-12-17得票数 1

回答已采纳

1回答

我如何将CUDA错误重置为成功使用驱动程序API后，陷阱指令？

、、

我有一个内核，它可以在内核中调用asm("trap;")。但是当这种情况发生时，CUDA错误代码被设置为启动失败，而我不能重置它。在CUDA运行时API中，我们可以使用cudaGetLastError获取最后一个错误，同时将其重置为cudaSuccess。有什么方法可以用驱动程序API来实现吗？

浏览 2提问于2017-04-27得票数 5

回答已采纳

1回答

cuFFT流的并发性

、、、

因此，我使用cuFFT与CUDA流特性相结合。我遇到的问题是，我似乎无法使cuFFT内核完全并发运行。以下是我从nvvp获得的结果。每个流都对128x128大小的128幅图像运行2D批处理FFT的内核。我设置了3个流运行3个独立的FFT批处理计划。从图中可以看出，一些内存副本(黄色条)与一些内核计算(紫色、棕色和粉色条)并行。但是内核的运行完全不同步。正如您注意到的，每个内核都严格遵循彼此。下面是我用于将内存复制到设备和内核启动的代码。 for (unsigned int j = 0; j < NUM_IMAGES; j++ ) { gpuErrchk

浏览 3提问于2016-04-15得票数 2

回答已采纳

1回答

在Matlab中执行CUDA代码

、

我想问是否有人在Matlab上运行了包含CUDA代码的C代码？我已经阅读了Mathworks网站上的文档，但我仍然无法完全理解它。我理解这是两种主要的方法，一种是通过使用函数parallel.gpu.CUDAKernel构造对象来执行CUDA内核，另一种是用.cu文件构建mex文件。在使用这两种方法时，有一些事情我不明白。使用mex方法，在Matlab中编译mex文件之前，我是否应该使用另一个IDE (比如Visual )来编译一个.cu文件？如果是这样的话，如何在.cu文件中没有main()函数的情况下编译.cu文件，当我尝试以VS的方式编译它时总是会出现错误，或者在.cu文件中有一

浏览 3提问于2018-01-05得票数 3

1回答

cudaMemcpyAsync()在第二次内核调用后不同步

、

我的目标是设置通过引用传递到cuda内核的主机变量： // nvcc test_cudaMemcpyAsync.cu -rdc=true #include <iostream> __global__ void setHostVar(double& host_var) { double const var = 2.0; cudaMemcpyAsync(&host_var, &var, sizeof(double), cudaMemcpyDeviceToHost); // identifier "cudaMemcpy" is und

浏览 3提问于2020-10-10得票数 0

回答已采纳

1回答

cuda-gdb不会步入内核

、

我正在尝试从cuda-gdb获取内存跟踪。但是，我无法深入了解内核代码。我使用了nvcc标志-g、-G和-keep，但都没有效果。我可以在内核函数上设置一个断点，但是当我尝试访问下一条指令时，它会跳到内核函数的末尾。我已经在sdk示例中尝试过了，并且我观察到了相同的行为。我正在开发cuda 5工具包。有什么建议吗？谢谢!

浏览 3提问于2013-06-19得票数 0

回答已采纳

1回答

CUDA错误: MapSMtoCores未定义SM-3.5未定义

、、

我无法运行包装CUDA代码的python脚本。它告诉我要更新我的CUDA SDK，但我认为问题在于读取的是cuda C文件，而不是同名的C++文件。有人知道怎么解决这个问题吗？错误信息是： MapSMtoCores undefined SM 3.5 is undefined (please update to the latest SDK)! 1.1...src/cudaconv2/filter_acts.cu(1179) : getLastCudaError() CUDA error : filterActs: kernel execution failed : (9) invalid

浏览 4提问于2014-01-26得票数 0

回答已采纳

1回答

cudaMalloc在哪个内存空间分配内存？

、、

如果我正确理解，CUDA设备有几个不同的。(例如注册、本地、共享、全球等)。当调用cudaMalloc()时，分配的内存驻留在哪个内存空间？例如： __global__ mykernel (void *p) { /* What memory space does p point to? */ printf("p: %p\n", p); } int main() { void *p; assert(cudaMalloc (&p, 1024) == CUDA_SUCCESS); mykernel<<<1,1024

浏览 0提问于2019-08-21得票数 1

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

1回答

清除nvidia驱动程序，现在我没有以太网，没有无线设备，也没有蓝牙设备。

所以标题就说明了一切。我试着安装cuda，就像往常一样，cuda的安装破坏了一些东西(不知怎么说，我要么无法加载X，要么无法让笔记本电脑进入睡眠状态)，所以和往常一样，我清除了任何nvidia。重新启动后，现在我完全无法连接到互联网(没有以太网驱动程序，没有无线驱动程序)，图形也是非常糟糕的分辨率，所以我想也没有显卡。这些显然都很好以前，所以我完全不明白，他们怎么会打破由于英伟达清洗。由于我从来没有发现自己在这种情况下，我不知道如何解决这个问题。有什么建议吗？

浏览 0提问于2022-08-12得票数 -1

4回答

什么时候打电话给cudaDeviceSynchronize？

、、

何时真正需要调用cudaDeviceSynchronize函数？据我从CUDA文档中了解到，CUDA内核是异步的，因此我们似乎应该在每次内核启动后调用cudaDeviceSynchronize。然而，除了在时间测量之前，我尝试了与任何cudaDeviceSynchronize相同的代码(训练神经网络)。我发现我得到了同样的结果，但是速度在7-12倍之间(取决于矩阵的大小)。因此，问题是，除了时间测量之外，是否有任何理由使用cudaDeviceSynchronize。例如：在用cudaMemcpy将数据从GPU复制回主机之前是否需要如果我做矩阵乘法 C=A*B D=C*F

浏览 15提问于2012-08-09得票数 84

1回答

空内核上的CUDA与OpenCL性能

、、

当在CUDA和OpenCL上测量同一个内核的性能时，我发现了一件奇怪的事情。当我没有任何输入参数和计算时，我的内核绝对是空的，与OpenCL相比，CUDA给了我很差的性能。库达内核： __global__ void kernel_empty() { } CUDA主机： kernel_empty<<<dim3(10000, 10000, 1), dim3(8, 8, 1)>>>(); OpenCl内核： __attribute__((reqd_work_group_size(8, 8, 1))) __kernel void kernel_empty()

浏览 3提问于2014-05-06得票数 3

回答已采纳

3回答

用NVIDIA Nsight 2.1和Visual 2010调试OpenCL

、、、、

据我所知，Nvidia Nsight 2.1提供了调试OpenCL代码的可能性。我已经通过了所有Nsight Monitor要求(禁用WDDM，禁用aero，安装开发驱动程序，连接到第二个显卡)，但我仍然无法调试我的代码。在VS 2010中使用“启动CUDA调试”以通知结束： CUDA上下文是在当前不可调试的GPU上创建的。断点将被禁用。适配器: GeForce GTX 590 我的C++解决方案是使用cmake创建的，我没有将内核源代码(*.cl)添加到解决方案中。我的应用程序从文件中读取内核源代码并编译它们。那么，如何在内核中设置任何断点呢？

浏览 6提问于2012-02-28得票数 1

回答已采纳

1回答

CUDA并发内核启动不起作用

、、、

我正在编写一个用于图像处理的CUDA程序。同样的内核"processOneChannel“将为RGB通道启动。下面，我尝试为三个内核启动指定流，以便它们可以被并发处理。但是nvprof说他们还在一个接一个的发射..。在这三个内核之前和之后还有另外两个内核，我不希望它们同时运行。基本上我想要的是: seperateChannels -> processOneChannel(x3) --> recombineChannels 请告诉我做错了什么..。 void kernelLauncher(const ushort4 * const h_inputImageRGBA, u

浏览 11提问于2016-04-09得票数 1

回答已采纳

1回答

预编译numba cuda内核(非jit)

、、、、

你好，我正在使用numba编写一些带有@cuda.jit装饰器的内核。我有8个CPU线程，每个线程在2个GPU设备中的一个上调用一个内核。(具体为cpu_idx % len(cuda.gpus)) 我相信每个CPU线程都在编译内核，相对于内核处理整个图像所需的时间，这会占用很多时间。理想情况下，它应该只编译一次，以供所有CPU线程使用。但是我不能在使用multiprocessing.Pool分支之前初始化任何cuda gpu代码，因为cuda不喜欢那样。那么有没有办法预编译cuda内核呢？我不想要即时编译

浏览 19提问于2020-04-09得票数 0

2回答

如何避免连续异步内核启动时库达错误6(启动超时)？

、

通过以下(简化的)代码，我得到了一个库达错误6(也称为cudaErrorLaunchTimeout和CUDA_ERROR_LAUNCH_TIMEOUT)： for(int i = 0; i < 650; ++i) { int param = foo(i); //some CPU computation here, but no memory copy MyKernel<<<dimGrid, dimBlock>>>(&data, param); } Cuda错误6表示内核花了太多时间返回。然而，单个MyKernel的持续时间仅为6

浏览 0提问于2015-01-14得票数 3

回答已采纳

2回答

如何在CUDA中度量内核启动的开销

我想在CUDA中测量内核启动的开销。据我所知，有各种参数影响这一开销。我对以下各点感兴趣：创建的线程数正在复制的数据的大小我这样做主要是为了衡量使用CUDA 6.0中引入的托管内存的优势。我将用我开发的代码和注释更新这个问题。谢谢!

浏览 5提问于2014-06-23得票数 4

回答已采纳

1回答

printf如何在数据自动化系统上计算>= 2

、、、

在早期，printf不受支持，我们要么使用仿真器运行CUDA程序，要么来回复制变量并在主机端打印。既然CUDA (arch 2及更高版本)支持printf，我很想知道它是如何工作的？我的意思是，屏幕上的GPU printf是如何内部的？计算能力1的限制因素是什么？

浏览 3提问于2015-01-31得票数 2

回答已采纳

1回答

CUDA父内核可以启动比父内核更多线程的子内核吗？

、

我正在尝试学习如何使用CUDA动态并行。我有一个简单的CUDA内核，它创建一些工作，然后启动新的内核来执行这些工作。假设我只用1个线程的一个块启动父内核，如下所示： int nItems = 100 parentKernel<<<1,1>>>(nItems); 现在，在我的父内核中，我创建了工作，然后启动一个子内核，如下所示： __global__ void parentKernel(int nItems) { // create some work // invoke child kernel childKernel&

浏览 16提问于2021-10-09得票数 0

回答已采纳

1回答

使用原子操作调试ALEA内核时出现“无法解析名称”(atomic_add)

、、

我正在使用ALEA GPU进行GPU编程(C#)。如果我在内核中使用像atomic_add这样的原子操作，在内核调试期间，我在CUDA WarpWatch窗口中为我的变量得到“无法解析名称”错误。我看到了be Idx.x、be Dim.x、threadIdx.x和数组的值，但变量名无法解析。内核按预期工作，但在调试期间无法监控变量，因此很难修复任何错误。CUDA 8工具包已安装，我正在使用Visual Studio 2015。有什么想法吗？

浏览 1提问于2017-01-07得票数 0

1回答

CUDA如何获得网格，块，线程大小和并行非方阵计算

、、、

我是CUDA新手，需要帮助理解一些事情。我需要帮助并行化这两个for循环。特别是如何设置dimBlock和dimGrid以使其运行得更快。我知道这看起来像sdk中的向量相加示例，但该示例仅适用于方阵，当我尝试为我的128x1024矩阵修改该代码时，它不能正常工作。 __global__ void mAdd(float* A, float* B, float* C) { for(int i = 0; i < 128; i++) { for(int j = 0; j < 1024; j++) { C[i * 102

浏览 0提问于2011-04-13得票数 22

回答已采纳