但是当我执行内核时: int i = get_global_id (0);
result [i] = get_local_id (0); 我得到了重复的本地id,范围从0到255。这与显卡返回的max_compute_units有什么关系?这是GPU值中的错误,并且max_compute_units实际具有比它所指示的更多的计算单元吗?或者,OpenClget_local_id是否有自己的
我目前正在试验OpenCL代码的性能,使用GPU,在CPU上使用C++。我编写了计算和z = x + y的程序,其中z、x和y是GPU和CPU的二维数组(矩阵)。在测试了这些程序之后,我发现由于PCI总线中的数据在GPU和CPU之间的传输速度慢,CPU在计算这一总和方面要比GPU高效得多。现在,我想确定需要多少钱才能比CPU更有效地使用GPU。)的OpenCL
for(int i = 0; i<n;