CUDA C编程指南有一个示例(附录B.5),它在SDK中的"threadFenceReduction“示例中得到了充实,因此它似乎是我们”应该“使用的。然而,当我尝试使用__threadfence()时,它的速度非常慢。有关示例,请参阅下面的代码。据我所知,在继续之前,__threadfence()应该确保当前线程块中所有挂起的内存传输都已完成。相反,__threadfence()指令似乎占用了20微秒时间!27.716831 ms1,000次只运行前3行,包括线程围栏: 25.962912 m