问在获得一致性与松弛一致性的原子负载上旋转
EN

Stack Overflow用户

提问于 2020-12-31 05:40:35

回答 1查看 191关注 0票数 4

考虑下面的代码：

// Class member initialization:
std::atomic<bool> ready_ = false;

...

// Core A:
while (!ready_.load(std::memory_order_acquire)) {
  // On x86, you would probably put a `pause` instruction here.
}
// Core A now accesses memory written by Core B.

...

// Core B:
// Core B writes memory.
ready_.store(true, std::memory_order_release);

假设核心A和核心B是两个不同的物理核心(即，它们不是位于同一物理核心上的两个超线程)。Core A上面的代码的性能是比下面的代码差，还是性能相当？请注意，Core A只是执行加载；这不是典型的包含写入的比较交换示例。我对几种架构的答案很感兴趣。

// Core A:
while (!ready_.load(std::memory_order_relaxed)) {
  // On x86, you would probably put a `pause` instruction here.
}
std::atomic_thread_fence(std::memory_order_acquire);
// Core A now accesses memory written by Core B.

此reference page上的邮箱代码暗示底层代码具有更好的性能，因为底层代码避免了“不必要的同步”。然而，邮箱代码在许多原子上迭代，因此获取一致性的同步开销是一个问题，因为您可以使用宽松的一致性来避免对不属于您的邮箱的排序约束。我不清楚在单个获取负载上旋转会对性能产生什么影响。

c++

atomic

stdatomic

音视频低代码开发方案最快1天上线

推出 TUICallKit 和 TUIRoomKit 低代码集成方案，最快1天接入在线教育、语聊房、在线客服等应用

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-31 21:39:17

有两种方式，第一个代码可能比第二个代码效率低，至少在一些假设的架构上是这样。在x86上，我猜测它们会编译成相同的代码。

第一个问题是原子负载可能会影响其他处理器的性能。在alpha上，这通常是研究内存一致性的一个很好的“异常值”情况，您可能会一遍又一遍地发出内存屏障指令，这可能会锁定内存总线(在非NUMA机器上)，或者做一些其他事情来强制其他两个CPU写入存储的原子性。

第二个问题是屏障会影响所有以前的负载，而不仅仅是ready_的负载。因此，可能在NUMA机器上，ready_实际上命中缓存，因为没有争用，并且您的CPU已经在以独占模式缓存它，但是之前的一些加载正在等待内存系统。现在，您必须停止CPU以等待上一次加载，而不是潜在地继续执行与停止的加载不冲突的指令。下面是一个例子：

int a = x.load(memory_order_relaxed);
while (!ready_.load(std::memory_order_relaxed))
  ;
std::atomic_thread_fence(std::memory_order_acquire);
int b = y;

在这种情况下，y的加载可能会停止等待x，而如果ready_的加载是通过获取语义完成的，那么x的加载可能会并行继续，直到需要该值。

出于第二个原因，您可能实际上希望以不同的方式构造您的自旋锁。下面是Erik Rigtorp如何在x86上实现自旋锁的建议，你可以很容易地适应你的用例：

  void lock() {
    for (;;) {
      if (!lock_.exchange(true, std::memory_order_acquire)) {
        break;
      }
      while (lock_.load(std::memory_order_relaxed)) {
        __builtin_ia32_pause();
      }
    }
  }