我的理解是(例如,如何在不将指针声明为易失性的情况下强制执行CUDA全局内存一致性?、GTS 250与费米器件的库达块同步差异和这篇文章位于nvidia开发者区),__threadfence()
保证全局写入在线程继续之前对其他线程是可见的。但是,即使在L1返回之后,另一个线程仍然可以从其__threadfence()
缓存读取陈旧的值。
这就是:
线程A将一些数据写入全局内存,然后调用__threadfence()
。然后,在__threadfence()
返回并且所有其他线程都可以看到写入之后的某个时间,线程B被要求从这个内存位置读取。它发现它有L1中的数据,所以会加载这些数据。不幸的是,对于开发人员来说,线程B的L1中的数据已经过时(也就是说,它和线程A更新该数据之前一样)。
首先:这是对的吗?
如果是这样的话,那么在我看来,只有当任何一个人都可以是__threadfence()
的--数据不会在L1中(有点不太可能?)时,才会有用。或者,如果读取总是绕过L1 (例如易失性或原子)。这是正确的吗?
我之所以这样问,是因为我有一个相对简单的用例--用一个二叉树来传播数据--使用原子设置的标志和__threadfence()
:到达节点的第一个线程退出,第二个线程根据其两个子节点(例如,数据的最小值)向它写入数据。这对于大多数节点都有效,但通常至少有一个节点失败。声明数据volatile
提供了一致的正确结果,但是对于没有从L1获取陈旧值的情况,99%+会导致性能下降。我想确定这是这个算法的唯一解决方案。下面给出了一个简化的例子。注意,节点数组的顺序是宽度优先,叶子从索引start
开始,并且已经填充了数据。
__global__ void propagate_data(volatile Node *nodes,
const unsigned int n_nodes,
const unsigned int start,
unsigned int* flags)
{
int tid, index, left, right;
float data;
bool first_arrival;
tid = start + threadIdx.x + blockIdx.x*blockDim.x;
while (tid < n_nodes)
{
// We start at a node with a full data section; modify its flag
// accordingly.
flags[tid] = 2;
// Immediately move up the tree.
index = nodes[tid].parent;
first_arrival = (atomicAdd(&flags[index], 1) == 0);
// If we are the second thread to reach this node then process it.
while (!first_arrival)
{
left = nodes[index].left;
right = nodes[index].right;
// If Node* nodes is not declared volatile, this occasionally
// reads a stale value from L1.
data = min(nodes[left].data, nodes[right].data);
nodes[index].data = data;
if (index == 0) {
// Root node processed, so all nodes processed.
return;
}
// Ensure above global write is visible to all device threads
// before setting flag for the parent.
__threadfence();
index = nodes[index].parent;
first_arrival = (atomicAdd(&flags[index], 1) == 0);
}
tid += blockDim.x*gridDim.x;
}
return;
}
发布于 2013-10-25 17:28:41
首先,这是对的吗?
是的,__threadfence()
将数据推入L2并输出到全局内存中。它对其他短消息中的L1缓存没有影响。
这是正确的吗?
是的,如果将__threadfence()
和volatile
结合用于全局内存访问,您应该相信值最终将在其他线程块中可见。但是,请注意,线程块之间的同步在CUDA中不是一个定义良好的概念。没有明确的机制来这样做,也没有保证线程块执行的顺序,所以仅仅因为您的代码在某个地方有一个__threadfence()
在volatile
项上操作,仍然不能真正保证另一个线程块可能获取哪些数据。这也取决于执行的顺序。
如果使用volatile
,则应该绕过L1 (如果启用- 当前的开普勒设备实际上还没有启用L1来进行通用全局访问)。如果不使用volatile
,那么当前正在执行__threadfence()
操作的SM的L1在完成__threadfence()
操作时应该与L2 (和全局)保持一致/一致。
请注意,L2缓存是跨设备统一的,因此始终是“一致的”。对于您的用例,至少从设备代码的角度来看,L2和全局内存之间没有区别,不管您使用的是哪种SM。
正如您所指出的,(全局) atomics总是在L2/全局内存上运行。
https://stackoverflow.com/questions/19598852
复制相似问题