假设我有Nvidia K40,出于某种原因,我希望我的代码只使用Cuda内核的一部分(例如,不使用全部2880个内核,而只使用400个内核),这是可能的吗?这样做也合乎逻辑吗?此外,当我运行我的代码时,有没有办法查看GPU正在使用多少内核?换句话说,在执行过程中,我们是否可以检查代码使用了多少个内核,比如Windows中的"task m
我刚刚在CUDA中学习了流技术,并且我尝试过它。然而,不想要的结果返回,即流不平行。(在图形处理器特斯拉M6上,操作系统为Red Hat Enterprise Linux8) 我有一个大小为(5,2048)的数据矩阵,以及一个处理该矩阵的内核。我的计划是分解“nStreams=4”扇区中的数据,并使用4个流来并行内核执行。Mykernel<<<streamGrid,block,0,streams[j