c - アウトオブオーダー実行とメモリフェンス

Question

最新の CPU が順不同で実行できることは知っていますが、ウィキペディアで説明されているように、常に結果を順番どおりに破棄します。

「順不同のプロセッサは、これらの「スロット」を、準備ができている他の命令で時間内に埋め、最後に結果を並べ替えて、命令が通常どおりに処理されたように見せます。」

現在、マルチコアプラットフォームを使用する場合はメモリフェンスが必要であると言われています。これは、アウトオブオーダーの実行により、xの間違った値がここに出力される可能性があるためです。

Processor #1:
 while f == 0
  ;
 print x; // x might not be 42 here

Processor #2:
 x = 42;
 // Memory fence required here
 f = 1

ここで私の質問は、アウトオブオーダープロセッサ (私が想定するマルチコアプロセッサの場合はコア) は常に結果をインオーダーで破棄するため、メモリフェンスの必要性は何かということです。マルチコアプロセッサのコアは、他のコアからのリタイアした結果のみを認識しますか?それとも処理中の結果も認識しますか?

上記の例では、プロセッサ 2 が最終的に結果を破棄するとき、xの結果はfの前に来るはずですよね? 順不同の実行中に、 x の前に f を変更した可能性がありますが、 x の前にそれを廃止してはならないことはわかっていますよね?

結果のインオーダーリタイアとキャッシュコヒーレンスメカニズムが整った今、なぜ x86 でメモリフェンスが必要になるのでしょうか?

score 15 · Accepted Answer

このチュートリアルでは、問題について説明しています: http://www.hpl.hp.com/techreports/Compaq-DEC/WRL-95-7.pdf

最新の x86 プロセッサでメモリの順序付けの問題が発生する FWIW の理由は、x86 メモリの一貫性モデルは非常に強力な一貫性を提供しますが、書き込み後の読み取りの一貫性を処理するには明示的なバリアが必要だからです。これは、「ストアバッファ」と呼ばれるものによるものです。

つまり、x86 は、ロードが以前のストアに対して並べ替えられる可能性があることを除いて、順次一貫性があります (適切で、簡単に推論できます)。つまり、プロセッサがシーケンスを実行する場合

store x
load y

プロセッサバスでは、これは次のように表示されます。

load y
store x

この動作の理由は、前述のストアバッファーにあります。これは、書き込みがシステムバスに出力される前の小さなバッファーです。ロードレイテンシは OTOH であり、パフォーマンスにとって重要な問題であるため、ロードは「キューをジャンプ」することが許可されています。

http://download.intel.com/design/processor/manuals/253668.pdfのセクション 8.2 を参照してください。

score 8 · Accepted Answer

メモリフェンスは、フェンスの前の変数へのすべての変更が他のすべてのコアに表示されることを保証するため、すべてのコアが最新のデータビューを持っています。

メモリフェンスを配置しない場合、コアが間違ったデータで動作している可能性があります。これは、複数のコアが同じデータセットで動作しているシナリオで特に見られます。この場合、CPU 0 が何らかのアクションを実行したときに、データセットに加えられたすべての変更が他のすべてのコアに表示されるようになり、最新の情報で作業できるようになります。

ユビキタスな x86/x64 を含む一部のアーキテクチャは、「フルフェンス」と呼ばれることもある命令を含むいくつかのメモリバリア命令を提供します。完全なフェンスにより、フェンスの前のすべてのロードおよびストア操作が、フェンスの後に発行されるロードおよびストアの前にコミットされることが保証されます。

コアがデータセットの古いデータで作業を開始した場合、どのようにして正しい結果を得ることができるでしょうか? すべてが正しい順序で行われたかのように、最終結果が提示されるかどうかは問題ではありません。

キーは、キャッシュと CPU の間にあるストアバッファーにあり、次のように動作します。

リモート CPU から見えないストアバッファ

ストアバッファにより、メモリやキャッシュへの書き込みを保存して相互接続アクセスを最適化できます

つまり、このバッファーに何かが書き込まれ、ある時点でバッファーがキャッシュに書き込まれます。そのため、キャッシュには最新ではないデータのビューが含まれている可能性があり、そのため、キャッシュの一貫性により、別の CPU も最新のデータを持っていません。最新のデータを表示するには、ストアバッファのフラッシュが必要です。これは、基本的にメモリフェンスがハードウェアレベルで発生させる原因だと思います。

編集：

例として使用したコードについて、ウィキペディアは次のように述べています。

プロセッサ #2 が f に割り当てられる前にメモリバリアを挿入して、f の値の変更時または変更前に x の新しい値が他のプロセッサから見えるようにすることができます。

c - アウト オブ オーダー実行とメモリ フェンス

3 に答える 3

Related

Reference

c - アウトオブオーダー実行とメモリフェンス