根据论坛上的诸多用户的问题, 往往集中在两点:
(1)新用户遇到后续的同步调用之类的场合, cudaMemcpy之类的, 返回的之前的kernel执行期间导致的错误, 会感到迷惑....例如她们会感觉这是cudaMemcpy自己出错了, 而没有意识到这是之前的错误, 因为CUDA有这个特性, 之前的kernel出错后, 后面的所有API都会从检测到出错的时候(往往是后续第一个同步调用)...(在后续的CPU上的最近同步调用的检测处), 也就是说, 动态并行的子kernel运行期间出错只能从Host上检测到....但是本章节的不使用>>是特意为动态并行而说明的, 也就是如何从父kernel中这样用, 而不是从Host代码中.实际上, Host CUDA Runtime API也可以不使用>>, 通过一个叫...非常方便.而CUDA C的对应版本, 则可以在你尝试从刚才的上面这个kernel外形中, 能快速的继续先保持CUDA C的动态并行启动,先改称从CUDA C里将>>改成参数缓冲区填充+启动.如果这一步进行顺利