我试图在c++上运行一个简单的WSL2程序,其中包含了Cuda的推力函数。程序似乎在运行时分配设备内存失败。我一直在使用的推力,并且没有任何错误。CMakeLists.txt:project(proj LANGUAGES CXX CUDA)add_executableget_max_shared_memory_per_block :failed to
x_cpu,y_cpu,z_cpu是等长的大数组,结果是网格结果,会降低x,y,z分辨率,每个网格只保留一个点,它们不能一起放到内存中。所以我将x,y,z分成几个部分,但仍然将整个结果放入使用的GPU内存中from math import ceil
x = cuda.to_device(x_cpu[lopIdx*Segment