我尝试在GPU中总结一个数组,然后在主机上获取它。为此,我使用了pycuda.gpuarray.sum()函数。import pycuda.gpuarrayb = gpuarray.to_gpu(a)c = c.get) #Error, Index error - too many indices for array
print(c.shape) #Prints (), empty tuple 如何将sum()函数的解恢复为正常
我发现在运行这段代码时,test4变量并不为所有线程返回相同的值。我的理解是,使用TEST_FLAG变量应该将所有线程带入if (TEST_FLAG == 2)条件,因此数组test4中的每个元素都应该返回值43。然而,我发现所有元素都返回43,除了线程0返回0。任何关于为什么我的线程不都返回相同的值的帮助都将不胜感激。import numpy as np
import p