language-agnostic - アトミック操作はハードウェアレベルでどのように実装されますか?

Question

アセンブリ言語レベルの命令セットアーキテクチャでは、比較とスワップなどの操作が提供されます。ただし、チップがこれらの保証をどのように提供できるかはわかりません。

私が想像するように、命令の実行は

メモリから値をフェッチする
値を比較する
比較に応じて、別の値をメモリに保存する可能性があります

最初のコアがメモリアドレスをフェッチした後、新しい値を設定する前に、別のコアがメモリアドレスにアクセスするのを妨げているのは何ですか? メモリコントローラはこれを管理しますか?

編集: x86 の実装が秘密である場合は、プロセッサファミリがそれをどのように実装しているかを知りたいです。

score 39 · Accepted Answer

これは、software.intel.com の記事で、ユーザーレベルのロックにほとんど光を当てていません。

ユーザーレベルのロックには、プロセッサのアトミック命令を利用してメモリ空間をアトミックに更新することが含まれます。アトミック命令では、命令でロックプレフィックスを使用し、デスティネーションオペランドをメモリアドレスに割り当てます。次の命令は、現在の Intel プロセッサでロックプレフィックスを使用してアトミックに実行できます: ADD、ADC、AND、BTC、BTR、BTS、CMPXCHG、CMPXCH8B、DEC、INC、NEG、NOT、OR、SBB、SUB、XOR、XADD、およびXCHG。[...] ほとんどの命令では、ロックプレフィックスを明示的に使用する必要があります。ただし、xchg 命令では、命令にメモリアドレスが含まれる場合にロックプレフィックスが暗示されます。

Intel 486 プロセッサの時代には、バスのロックをアサートするためにロックプレフィックスが使用され、パフォーマンスが大幅に低下しました。Intel Pentium Pro アーキテクチャ以降、バスロックはキャッシュロックに変換されます。最新のアーキテクチャでは、ロックがキャッシュ不可能なメモリに存在する場合、またはロックがキャッシュラインを分割するキャッシュライン境界を超えて拡張されている場合、ロックは依然としてバス上でアサートされます。これらのシナリオはどちらもありそうにないため、ほとんどのロックプレフィックスは、はるかに安価なキャッシュロックに変換されます。

では、別のコアがメモリアドレスにアクセスするのを妨げているのは何でしょうか? キャッシュコヒーレンシプロトコルは、キャッシュラインのアクセス権を既に管理しています。そのため、コアがキャッシュラインへの (一時的な) 排他的アクセス権を持っている場合、他のコアはそのキャッシュラインにアクセスできません。そのキャッシュラインにアクセスするには、他のコアが最初にアクセス権を取得する必要があり、それらの権利を取得するためのプロトコルには現在の所有者が関与します。実際、キャッシュコヒーレンシプロトコルは、他のコアがキャッシュラインにサイレントアクセスするのを防ぎます。

ロックされたアクセスが単一のキャッシュラインにバインドされていない場合、事態はさらに複雑になります。ページ境界を越えたロックされたアクセスなど、あらゆる種類の厄介なコーナーケースがあります。Intel は詳細を明らかにしておらず、ロックを高速化するためにあらゆる種類のトリックを使用している可能性があります。

score 4 · Accepted Answer

これの実装例は、プロセッサが実際にアトミック操作を完了するために使用される追加の命令を持つLL/SCです。メモリ側はキャッシュの一貫性です。最も一般的なキャッシュコヒーレンシプロトコルの 1 つは、MESI プロトコルです。.

score 3 · Accepted Answer

キャッシュコヒーレンシプロトコルだけでは、アトミック操作を実装するには不十分です。アトミックインクリメントを実装したいとしましょう。以下は、関連する手順です

キャッシュからレジスタに値をロードする
レジスタにロードされた値をインクリメントする
更新された値をキャッシュに保存します

したがって、上記の 3 つの命令をアトミックに実装するには、まず、必要な値を含むキャッシュラインへの排他的アクセスを取得する必要があります。排他アクセスを取得したら、「ストア」操作が完了するまで、このキャッシュラインへの排他アクセスを放棄しないでください。これは、アトミック命令を実行する CPU が、その間、このキャッシュラインのキャッシュコヒーレンシプロトコルメッセージに応答してはならないことを意味します。これがどのように実装されているかの詳細には悪魔がいますが、少なくともそれは私たちにメンタルモデルを与えてくれます

以下は、アトミック命令について linus torvalds が言及したものです。

アトミック命令は、ストアバッファーをバイパスするか、少なくともそうであるかのように動作します。実際にはストアバッファーを使用する可能性がありますが、ロードの前にストアバッファーと命令パイプラインをフラッシュし、後で排出されるのを待ち、キャッシュラインをロックします。それらはロードの一部として取得し、ストアの一部として解放します。これはすべて、その間にキャッシュラインが消えないようにするためであり、これが行われている間、他の誰もストアバッファの内容を見ることができないようにするためです。

score 0 · Accepted Answer

メモリコントローラは、異なるプロセッサのメモリとキャッシュの一貫性を維持することのみを担当します。CPU1 のメモリに書き込むと、CPU2 はそのキャッシュから他のものを読み取ることができなくなります。両方が同じデータを操作しようとしていることを確認するのは、その責任ではありません。ロックおよびアトミック操作を使用する低レベルの命令がいくつかあります。これらは OS レベルでメモリの小さなチャンクを操作してミューテックスやセマフォなどを作成するために使用されます。これらは文字通り 1 バイトまたは 2 バイトのメモリであり、アトミックな同期操作を実行する必要があります。次に、アプリケーションはこれの上に構築され、より大きなデータ構造とリソースに対して操作を実行します。

language-agnostic - アトミック操作はハードウェア レベルでどのように実装されますか?

4 に答える 4

Related

Reference

language-agnostic - アトミック操作はハードウェアレベルでどのように実装されますか?