cpu - 投機的に実行される CPU ブランチに、RAM にアクセスするオペコードを含めることはできますか?

Question

私が理解しているように、CPUが投機的にコードを実行すると、投機的な分岐に切り替える前にレジスタの状態を「バックアップ」するため、予測が間違っている場合(分岐を役に立たなくする)-レジスタの状態は次のようになります「状態」を損なうことなく、安全に復元されます。

それで、私の質問は次のとおりです。投機的に実行された CPU ブランチに、RAM にアクセスするオペコードを含めることができますか?

つまり、RAM へのアクセスは「アトミック」操作ではありません。データが現在 CPU キャッシュにない場合、メモリからの 1 つの単純なオペコード読み取りで実際の RAM アクセスが発生する可能性があり、非常に時間のかかる操作になる可能性があります。、CPU の観点から。

そして、そのようなアクセスが実際に投機的ブランチで許可されている場合、それは読み取り操作のみですか? なぜなら、ブランチが破棄されて「ロールバック」が実行された場合、そのサイズに応じて、書き込み操作を元に戻すことは非常に遅く、扱いにくいものになる可能性があるとしか思えないからです。そして、確かに、一部の CPU ではレジスタ自体が CPU キャッシュ上に物理的に配置されているため、少なくともある程度は読み取り/書き込み操作がサポートされています。

したがって、おそらくより正確な定式化は次のようになります。投機的に実行されるコード片の制限は何ですか?

score 13 · Accepted Answer

投機的アウトオブオーダー (OoO) 実行の基本ルールは次のとおりです。

命令がプログラム順に実行されているという錯覚を維持する
誤った推測が検出された場合にロールバックできるもの、および他のコアが間違った値を保持していることを観察できないものに推測が含まれていることを確認してください。物理レジスタ、命令順序を追跡するバックエンド自体はありますが、キャッシュはありません。キャッシュは他のコアと一貫性があるため、ストアは非投機的になるまでキャッシュにコミットしてはなりません。

OoO exec は通常、引退するまですべてを投機的なものとして扱うことによって実装されます。すべてのロードまたはストアでエラーが発生する可能性があり、すべての FP 命令で FP 例外が発生する可能性があります。分岐は (例外と比較して) 特別です。ただし、分岐の予測ミスがまれではないため、分岐ミスの早期検出とロールバックを処理する特別なメカニズムが役立ちます。

はい、キャッシュ可能なロードは副作用がないため、投機的に実行できます。

ストアバッファーのおかげで、ストア命令を投機的に実行することもできます。 ストアの実際の実行では、アドレスとデータをストアバッファに書き込むだけです。 (関連: Intel ハードウェアのストアバッファーのサイズ? ストアバッファーとは正確には何ですか? は、 x86 に重点を置いて、これよりも技術的になります。この回答は、ほとんどの ISA に適用できると思います。)

L1d キャッシュへのコミットは、ストア命令が ROB からリタイアした後で発生します。つまり、ストアが非投機的であることがわかっている場合、関連するストアバッファエントリは「卒業」し、キャッシュにコミットする資格があり、グローバルに可視になります。ストアバッファーは、他のコアが認識できるものから実行を分離し、このコアをキャッシュミスストアから隔離するため、インオーダー CPU でも非常に便利な機能です。

ストアバッファエントリが「卒業」する前に、誤った推測でロールバックするときに、それを指す ROB エントリと一緒に破棄することができます。

(これが、厳密に順序付けされたハードウェアメモリモデルでも StoreLoadの再順序付けを許可する理由です実際にコミットするストア)。

ストアバッファは実質的に循環バッファです。エントリはフロントエンドによって割り当てられ (alloc/rename パイプラインステージ中に)、L1d キャッシュへのストアのコミット時に解放されます。(これはMESIを介して他のコアと一貫性を保っています)。

x86 のような厳密に順序付けされたメモリモデルは、ストアバッファーから L1d に順番にコミットすることで実装できます。エントリはプログラム順に割り当てられるため、ストアバッファは基本的にハードウェアの循環バッファになります。弱い順序の ISA は、ストアバッファーのヘッドがまだ準備ができていないキャッシュライン用である場合、新しいエントリを参照できます。

一部の ISA (特に弱い順序付け) は、ストアバッファーエントリのマージも行い、32 ビットストアのペアから L1d への単一の 8 バイトコミットを作成します。

キャッシュ可能なメモリ領域の読み取りには副作用がないと想定されており、OoO exec、ハードウェアプリフェッチなどによって投機的に実行できます。誤った投機はキャッシュを「汚染」し、実行の真のパスでは実行されないキャッシュラインに触れることで帯域幅を浪費する可能性があります (そして、TLB ミスの投機的なページウォークをトリガーすることさえあります) が、それが唯一の欠点です¹。

MMIO 領域 (ネットワークカードや SATA コントローラーに何かを実行させるなど、読み取りに副作用がある場所)は、その物理アドレスからの投機的読み取りが許可されていないことを CPU が認識できるように、キャッシュ不可としてマークする必要があります。これを間違えると、システムが不安定になります-私の答えは、投機的ロードについてあなたが求めているのと同じ詳細の多くをカバーしています。

高性能 CPU には、L1d キャッシュでミスしたものを含め、実行中のロードを追跡するための複数のエントリを持つロードバッファがあります。(インオーダー CPU でもヒットアンダーミスとミスアンダーミスを許可し、命令がまだ準備ができていないロード結果レジスタを読み込もうとした場合にのみストールします)。

OoO exec CPU では、1 つのロードアドレスが別のロードアドレスより先に準備できた場合にも、OoO exec を許可します。最終的にデータが到着すると、ロード結果からの入力を待っている命令は実行可能になります (他の入力も準備ができている場合)。そのため、ロードバッファエントリをスケジューラ (一部の CPU ではリザベーションステーションと呼ばれる) に接続する必要があります。

L2 ヒットのデータが L2 から到着する可能性があるサイクルで積極的に起動しようとすることで、Intel CPU が待機中の uop を具体的にどのように処理するかについては、RIDL の脆弱性とロードの「リプレイ」についても参照してください。

脚注 1 : この欠点と、マイクロアーキテクチャの状態 (キャッシュラインのホットまたはコールド) をアーキテクチャの状態 (レジスタ値) に検出/読み取るためのタイミングサイドチャネルと組み合わせることで、Spectre が可能になります。( https://en.wikipedia.org/wiki/Spectre_(security_vulnerability)#Mechanism )

メルトダウンについても理解することは、間違ったパスにあることが判明した投機的ロードの障害抑制を Intel CPU がどのように処理するかの詳細を理解するのに非常に役立ちます。 http://blog.stuffedcow.net/2018/05/meltdown-microarchitecture/

そして、確かに、読み取り/書き込み操作がサポートされています

はい、命令uopにデコードする最新のx86について話している場合は、論理的に分離されたロード/ ALU /ストア操作にそれらをデコードすることによって。ロードは通常のロードと同じように機能し、ストアは ALU の結果をストアバッファに入れます。3 つの操作はすべて、別の命令を記述した場合と同様に、順不同のバックエンドによって正常にスケジュールできます。

原子RMWを意味する場合、それは本当に投機的ではありません. キャッシュはグローバルに表示され (共有要求はいつでも発生する可能性があります)、ロールバックする方法はありません ( Intel がトランザクションメモリに対して行っていることを除いて...)。キャッシュに間違った値を入れてはいけません。'int num' に対して num++ をアトミックにできますか?を参照してください。特に最新の x86 で、ロードとストアコミットの間のその行に対する共有/無効化要求への応答を遅らせることによって、アトミック RMW がどのように処理されるかについての詳細。

lock add [rdi], eaxただし、それはパイプライン全体をシリアル化するという意味ではありません。並べ替えられる命令はロードとストアだけですか? 他の独立した命令の投機的な OoO exec がアトミック RMW の周りで発生する可能性があることを示しています。lfence(対、ROB を排出するような exec バリアで何が起こるか)。

多くのRISC ISAは、単一のアトミックRMW命令ではなく、ロードリンク/ストア条件付き命令を介してアトミックRMWのみを提供します。

[読み取り/書き込み操作...]、少なくともある程度は、一部のCPUではレジスタ自体がCPUキャッシュに物理的に配置されているためです。

は？誤った前提であり、その論理は意味がありません。別のコアがいつでもキャッシュを共有するように要求する可能性があるため、キャッシュは常に正しい必要があります。このコア専用のレジスタとは異なります。

レジスタファイルはキャッシュのように SRAM から構築されますが、分離されています。ボード上にSRAMメモリ(キャッシュではない)を備えたマイクロコントローラがいくつかあり、レジスタはその空間の初期バイトを使用してメモリマップされます。(例: AVR)。しかし、そのどれも、順不同の実行とはまったく関係がないようです。メモリをキャッシュしているキャッシュラインは、レジスタ値を保持するなど、まったく異なる目的で使用されているキャッシュラインと同じではありません。

また、投機的実行を行うためにトランジスタの予算を費やしている高性能 CPU が、キャッシュとレジスタファイルを組み合わせることも、実際にはあり得ません。次に、読み取り/書き込みポートをめぐって競合します。読み取りポートと書き込みポートの合計を持つ 1 つの大きなキャッシュは、小さな高速レジスタファイル (多くの読み取り/書き込みポート) と小さな (32kiB のような) L1d キャッシュよりもはるかに高価です (面積と電力)。2 つの読み取りポートと 1 つの書き込みポートがあります。ポート。同じ理由で、分割 L1 キャッシュを使用し、最新の CPU のコアごとに 1 つの大きなプライベートキャッシュではなく、マルチレベルキャッシュを使用しています。ほとんどのプロセッサで、L1 キャッシュのサイズが L2 キャッシュのサイズよりも小さいのはなぜですか?

関連する読書/背景:

https://stackoverflow.com/tags/x86/infoには、いくつかの優れた CPU アーキテクチャリンクがあります。
https://www.realworldtech.com/haswell-cpu/5/ David Kanter の Haswell の詳細。
Intel ハードウェアのストアバッファのサイズは? ストアバッファとは正確には何ですか?
ストアバッファとは何ですか?
ストアバッファとラインフィルバッファはどのように相互作用しますか?
アウトオブオーダー実行と投機的実行-引退するまですべてが投機的です。そこでの私の答えは、メルトダウンの側面に焦点を当てています。
http://blog.stuffedcow.net/2018/05/meltdown-microarchitecture/
skylake CPU が分岐の予測を誤った場合、正確にはどうなりますか?
https://en.wikipedia.org/wiki/MESI_protocol#Store_Buffer
https://en.wikipedia.org/wiki/Write_buffer (素晴らしい記事ではありませんが、完全を期すために言及しています)。
メモリの並べ替えはプロセッサとコンパイラにどのように役立ちますか? (StoreLoad の並べ替えは、ストアバッファーを可能にし、優れたパフォーマンスのために本質的に必要です。)

https://en.wikipedia.org/wiki/Memory_disambiguation - ストアバッファからロードへの転送を CPU がどのように処理するか、ストアが実際にこのロードよりも新しい (プログラム順で後) かどうか。
https://blog.stuffedcow.net/2014/01/x86-memory-disambiguation/ - x86 プロセッサでのストアからロードへの転送とメモリの曖昧さの解消。ストアのさまざまな部分とオーバーラップする狭い負荷や、キャッシュライン境界付近など、ストアフォワーディングの非常に詳細なテスト結果と技術的な議論。( https://agner.org/optimize/には、彼の microarch PDF で、ストア転送が遅い場合と速い場合について、理解しやすいが詳細ではない情報があります。)
グローバルに見えないロード命令- 最近のストアと部分的に重複し、部分的に重複しないロードからのストア転送は、CPU がどのように機能するか、およびメモリ (順序付け) モデル。C++ std::atomic はこれを行うコードを作成できないことに注意してください。ただし、C++20 std::atomic_ref では、整列された 8 バイトのアトミックロードとオーバーラップする整列された 4 バイトのアトミックストアを実行できます。

cpu - 投機的に実行される CPU ブランチに、RAM にアクセスするオペコードを含めることはできますか?

1 に答える 1

Related

Reference