我正在做一个项目,包括使用Visual Studio 2012和CUDA开发,并集成了Nsight调试环境。我可以很容易地看到在图形处理器上的线程直到threadIdx == 128,但是,当我试图看到更高的索引线程,这意味着除了第一块,使用调试焦点对话框通过CUDA调试焦点,我有困难,切换到其他块。这是否是Nsight的正常操作,如有任何答案,将不胜感激。谢谢大家。
刚开始学习CUDA,有些东西我还不太明白。我想知道,除了优化GPU工作负载之外,是否还有理由将线程分割成块。因为如果没有,我不明白为什么需要手动指定块的数量和大小。这样做不是更好吗?简单地提供解决任务所需的线程数,让GPU通过SMs分发线程不是更好吗?overall number of threads