c++ - 複数のスレッドから同じキャッシュラインを使用しても深刻な速度低下が発生しないのはなぜですか?

Question

このスニペットを見てください：

#include <atomic>
#include <thread>

typedef volatile unsigned char Type;
// typedef std::atomic_uchar Type;

void fn(Type *p) {
    for (int i=0; i<500000000; i++) {
        (*p)++;
    }
}

int main() {
    const int N = 4;

    std::thread thr[N];
    alignas(64) Type buffer[N*64];

    for (int i=0; i<N; i++) {
        thr[i] = std::thread(&fn, &buffer[i*1]);
    }

    for (int i=0; i<N; i++) {
        thr[i].join();
    }

}

この小さなプログラムは、4 つの異なるスレッドから、隣接する 4 つのバイトを何度もインクリメントします。以前は、ルールを使用していました。異なるスレッドから同じキャッシュラインを使用しないでください。キャッシュラインの共有は良くないからです。N=4したがって、4 スレッドバージョン ( ) は 1 スレッドバージョン ( ) よりもはるかに遅いと予想しましたN=1。

ただし、これらは私の測定値です（Haswell CPUで）：

N=1: 1 秒
N=4: 1.2秒

だからN=4それほど遅くはありません。*1別のキャッシュラインを使用すると( に置き換えます*64)、N=4少し速くなります: 1.1 秒。

アトミックアクセス (のコメントを入れ替えるtypedef) の同じ測定値、同じキャッシュライン:

N=1: 3.1 秒
N=4: 48 秒

したがって、N=4ケースははるかに遅くなります（予想どおり）。異なるキャッシュラインを使用すると、3.3 秒N=4と同様のパフォーマンスが得られます。N=1

これらの結果の背後にある理由がわかりません。N=4非アトミックなケースで深刻な速度低下が発生しないのはなぜですか? 4 つのコアはキャッシュに同じメモリを持っているので、何らかの方法で同期する必要がありますね。ほぼ完全に並行して実行するにはどうすればよいでしょうか? アトミックなケースだけで深刻な減速が発生するのはなぜですか?

この場合、メモリがどのように更新されるかを理解する必要があると思います。buffer最初は、キャッシュにコアはありません。1回のfor反復の後 ( fn)、4 つのコアすべてbufferがキャッシュラインを保持していますが、各コアは異なるバイトを書き込みます。これらのキャッシュラインはどのように同期されますか (アトミックでない場合)? キャッシュは、どのバイトがダーティかをどのように認識しますか? または、このケースを処理する他のメカニズムはありますか? なぜこのメカニズムはアトミックメカニズムよりもはるかに安価なのですか (実際にはほとんど無料です)?

c++ - 複数のスレッドから同じキャッシュラインを使用しても深刻な速度低下が発生しないのはなぜですか?

2 に答える 2

Related

Reference