为(7,7,0)和(7,7,1)的这两个线程, 不在同一个warp中.所以在实际的非1D的形状的block要按照本章节手册的说法进行warp边界处分支的话, 必须考虑到warp是如何组合的.否则你会弄巧成拙..., 而后者(predication或者predicated execution)往往是指的带有掩码或者条件的指令执行,例如ARM中的条件执行就类似后者。...常规的可以改.精确的说, 每个线程有8个这种p寄存器, 你能用的有7个.另外一个叫PT(T代表true),所有的不需要这种条件执行前缀的指令, 都实际上总是使用PT寄存器,也就是@pt inst;而pt...cuobjdump也不会反汇编的时候显示这个@pt恒真前缀——这个PT寄存器其实还有一个用途, 因为它恒真, 你可以理解成是只读的(一些需要写入P寄存器, 而又不想破坏掉目前的p0-p7的一个的时候,...一个能正确应用了这三点的(或者其他点, 以后说)的CUDA C的Kernel,还是可以能在代码中大量的出现if, for, while的, 而不会影响性能.所以很多人认为我不能在GPU上使用if, for