memory-management - スピンロックはメモリアロケータに適していますか?

Question

D プログラミング言語ランタイムの保守担当者に、メモリアロケータ/ガベージコレクタが通常の OS クリティカルセクションの代わりにスピンロックを使用するように何度か提案しました。これはあまり普及していません。スピンロックの方が優れていると私が考える理由は次のとおりです。

少なくとも私が行った合成ベンチマークでは、メモリアロケータ/GC ロックの競合がある場合、OS クリティカルセクションよりも数倍高速です。編集：経験的に、スピンロックを使用しても、シングルコア環境では測定可能なオーバーヘッドさえありませんでした。おそらく、メモリアロケーターでロックを短時間保持する必要があるためです。
メモリの割り当てや同様の操作には、通常、タイムスライスのごく一部、さらにはコンテキストスイッチにかかる時間のごく一部しかかからないため、競合が発生した場合にコンテキストを切り替えるのはばかげています。
問題の実装でのガベージコレクションは、とにかく世界を停止します。コレクション中に回転することはありません。

メモリアロケータ/ガベージコレクタの実装でスピンロックを使用しない正当な理由はありますか?

score 3 · Accepted Answer

明らかに、スピンロックの最悪の場合の動作はひどいものです (OS スケジューラーは 30 個の CPU バウンドスレッドを認識するだけなので、それらすべてにいくらかの CPU 時間を与えようとします。そのうち 29 個は、ロックを保持しているスレッドがスリープしている間、狂ったようにスピンします)。したがって、可能であればそれらを避ける必要があります。このため、スピンロックにはユーザー空間のユースケースがないと主張する私よりも賢い人はたくさんいます。
システムミューテックスは、スレッドをスリープ状態にする (または実際にあらゆる種類のシステムコールを行う) 前に少しスピンする必要があるため、競合が発生した場合でも、スピンロックとまったく同じように動作することがあります。
アロケーターは、多くの場合、ロックを使用してページをスレッドに割り当てるだけで、実質的にロックの競合を排除できます。各スレッドは、独自のページを分割する役割を果たします。N回の割り当てごとに1回だけロックを取得することになり、Nを好きなように構成できます。

2 と 3 は、合成ベンチマークでは効果的に対抗できない強力な議論であると考えています。実際のプログラムのパフォーマンスが低下することを示す必要があります。

score 2 · Accepted Answer

メモリアロケータ/ガベージコレクタの実装でスピンロックを使用しない正当な理由はありますか?

一部のスレッドがコンピューティングバウンド (CPU バウンド) であり、他のスレッドがメモリアロケーターバウンドの場合、スピンロックを使用すると CPU サイクルが必要になります。CPU サイクルは、コンピューティングバウンドスレッドによって使用されたり、他のスレッドに属するスレッドによって使用されたりする可能性があります。プロセス。

score 2 · Accepted Answer

スピンロックは、CPU/コアが 1 つしかないシステム、またはより一般的には競合の多い状況 (ロックで待機しているスレッドが多数ある場合) ではまったく価値がありません。

score 2 · Accepted Answer

とにかく、Windows では、クリティカルセクションオブジェクトには既にこれを行うオプションがあります ( http://msdn.microsoft.com/en-us/library/ms682530.aspx ):

スレッドは、InitializeCriticalSectionAndSpinCount または SetCriticalSectionSpinCount 関数を使用して、クリティカルセクションオブジェクトのスピンカウントを指定します。スピンとは、スレッドがロックされているクリティカルセクションを取得しようとすると、スレッドがループに入り、ロックが解放されているかどうかを確認し、ロックが解放されていない場合はスレッドがスリープ状態になることを意味します。シングルプロセッサシステムでは、スピンカウントは無視され、クリティカルセクションのスピンカウントは 0 (ゼロ) に設定されます。マルチプロセッサシステムでは、クリティカルセクションが使用できない場合、呼び出しスレッドは、クリティカルセクションに関連付けられているセマフォで待機操作を実行する前に、dwSpinCount 回スピンします。スピン操作中にクリティカルセクションが解放されると、呼び出しスレッドは待機操作を回避します。

うまくいけば、他のプラットフォームがまだ続いていなければ、それに続くでしょう。

score 0 · Accepted Answer

同意するかどうかはわかりません。メモリの割り当てには非常に長い時間がかかる可能性があるためです（すべてのメモリを事前に割り当ててから再発行する場合にのみそうなります）..マルチギグヒープサイズで同じ割り当てと割り当て解除を実際に試す必要があります何百万ものエントリがあり、多くのアプリケーションが割り当てクリティカルセクションにヒットし（スレッドではなくアプリケーションに注意）、十分なメモリからのディスクのトラッシング/スワッピングがあります。また、割り当て中にディスクスワッピングの問題が発生する可能性があり、ディスク要求を待機するスピンロックを実行することは確かに適切ではありません。

そして、CyberShadowがシングルスレッドCPUで述べたように、オーバーヘッドのある通常のロックに移行することになります。これで、言語はすべてシングルスレッドの多くの組み込みCPUで実行できます。

また、インターロックされた交換を回避できる場合は、それが最善です（ただし、ロックレスであるにもかかわらず、CPUを停止し、マルチコアメモリのLOCK＃を上げます）が、ほとんどのロックはとにかくこれを使用します（ただし、さらに多くのことを行う必要があります）。ただし、ヒープの構造は通常、インターロックされたエクスチャンスでは不十分であり、クリティカルセクションを作成することになります。GCを備えた（世代別の）マークスイープナーサリーでは、ポインターのインターロックされた比較および追加として割り当てを行うことが可能であることに注意してください。これはCosmosC＃OS GCに対して行い、スタック速度の割り当てに使用されます。

score 0 · Accepted Answer

Glasgow Haskell Compiler のガベージコレクタのパフォーマンスバグの 1 つは非常に煩わしいため、「最後のコアのスローダウン」という名前が付けられています。これは、GC でのスピンロックの不適切な使用の直接的な結果であり、Linux ではそのスケジューラーが原因で悪化しますが、実際には、他のプログラムが CPU 時間を競合しているときに常にその影響が観察されます。

この効果はここの 2 番目のグラフで明らかであり、Haskell プログラムがわずか 5 コアを超えてパフォーマンスの低下を確認している最後のコア以外にも影響を与えていることがわかります。

memory-management - スピンロックはメモリアロケータに適していますか?

6 に答える 6

Related

Reference