考虑下面的代码:
// Class member initialization:
std::atomic<bool> ready_ = false;
...
// Core A:
while (!ready_.load(std::memory_order_acquire)) {
// On x86, you would probably put a `pause` instruction here.
}
// Core A now accesses memory written by Core B.
...
// Core B:
// Core B writes memory.
ready_.store(true, std::memory_order_release);
假设核心A和核心B是两个不同的物理核心(即,它们不是位于同一物理核心上的两个超线程)。Core A上面的代码的性能是比下面的代码差,还是性能相当?请注意,Core A只是执行加载;这不是典型的包含写入的比较交换示例。我对几种架构的答案很感兴趣。
// Core A:
while (!ready_.load(std::memory_order_relaxed)) {
// On x86, you would probably put a `pause` instruction here.
}
std::atomic_thread_fence(std::memory_order_acquire);
// Core A now accesses memory written by Core B.
此reference page上的邮箱代码暗示底层代码具有更好的性能,因为底层代码避免了“不必要的同步”。然而,邮箱代码在许多原子上迭代,因此获取一致性的同步开销是一个问题,因为您可以使用宽松的一致性来避免对不属于您的邮箱的排序约束。我不清楚在单个获取负载上旋转会对性能产生什么影响。
发布于 2020-12-31 21:39:17
有两种方式,第一个代码可能比第二个代码效率低,至少在一些假设的架构上是这样。在x86上,我猜测它们会编译成相同的代码。
第一个问题是原子负载可能会影响其他处理器的性能。在alpha上,这通常是研究内存一致性的一个很好的“异常值”情况,您可能会一遍又一遍地发出内存屏障指令,这可能会锁定内存总线(在非NUMA机器上),或者做一些其他事情来强制其他两个CPU写入存储的原子性。
第二个问题是屏障会影响所有以前的负载,而不仅仅是ready_
的负载。因此,可能在NUMA机器上,ready_
实际上命中缓存,因为没有争用,并且您的CPU已经在以独占模式缓存它,但是之前的一些加载正在等待内存系统。现在,您必须停止CPU以等待上一次加载,而不是潜在地继续执行与停止的加载不冲突的指令。下面是一个例子:
int a = x.load(memory_order_relaxed);
while (!ready_.load(std::memory_order_relaxed))
;
std::atomic_thread_fence(std::memory_order_acquire);
int b = y;
在这种情况下,y
的加载可能会停止等待x
,而如果ready_
的加载是通过获取语义完成的,那么x
的加载可能会并行继续,直到需要该值。
出于第二个原因,您可能实际上希望以不同的方式构造您的自旋锁。下面是Erik Rigtorp如何在x86上实现自旋锁的建议,你可以很容易地适应你的用例:
void lock() {
for (;;) {
if (!lock_.exchange(true, std::memory_order_acquire)) {
break;
}
while (lock_.load(std::memory_order_relaxed)) {
__builtin_ia32_pause();
}
}
}
https://stackoverflow.com/questions/65517073
复制