c++ - OpenMPとNUMAの関係？

Question

NUMAをサポートするLinuxカーネル3.0でubuntuサーバーを実行しているデュアルソケットXeon E5522 2.26GHZマシン（ハイパースレッディングが無効）があります。アーキテクチャレイアウトは、ソケットあたり 4 つの物理コアです。OpenMP アプリケーションがこのマシンで実行されており、次の質問があります。

OpenMP プログラムは、NUMA マシン + 認識カーネル上で実行する場合、自動的に利点を利用しますか (つまり、スレッドとそのプライベートデータは、実行に沿って Numa ノードに保持されますか?)。そうでない場合、何ができるでしょうか？
NUMA とスレッドごとのプライベート C++ STL データ構造はどうですか?

score 17 · Accepted Answer

OMP_PROC_BIND現在の OpenMP 標準では、 OpenMP スレッドのバインドを制御するブール環境変数が定義されています。に設定した場合true、たとえば

shell$ OMP_PROC_BIND=true OMP_NUM_THREADS=12 ./app.x

その場合、OpenMP 実行環境はプロセッサ間でスレッドを移動するべきではありません。残念ながら、これらのスレッドをどのようにバインドするかについては、これ以上何も述べられていません。これは、OpenMP 言語委員会の特別なワーキンググループが現在取り組んでいることです。OpenMP 4.0 には、スレッドの分散方法を指定できる新しい環境変数と句が付属しています。もちろん、多くの OpenMP 実装は、バインディングを制御する独自の非標準メソッドを提供しています。

それでも、ほとんどの OpenMP ランタイムは NUMA に対応していません。それらはスレッドを使用可能な CPU に喜んでディスパッチし、各スレッドがそのスレッドに属するデータのみにアクセスすることを確認する必要があります。この方向には、いくつかの一般的なヒントがあります。

dynamic並列for(C/C++) / DO(Fortran) ループのスケジューリングを使用しないでください。
後で使用する同じスレッドでデータを初期化してみてください。for同じチームサイズと同じ反復チャンク数で2 つの別々の並列ループを実行する場合static、両方のループのチャンク 0 をスケジュールすると、スレッド 0 によって実行され、チャンク 1 - スレッド 1 によって実行されます。
OpenMP タスクを使用する場合は、タスク本体のデータを初期化してみてください。これは、ほとんどの OpenMP ランタイムがタスクスチールを実装しているためです。アイドルスレッドが他のスレッドのタスクキューからタスクをスチールする可能性があります。
NUMA 対応のメモリアロケータを使用します。

私の同僚の何人かは、さまざまな OpenMP ランタイムの NUMA 動作を徹底的に評価し、特に Intel の実装の NUMA 認識を調査しましたが、記事はまだ公開されていないため、リンクを提供することはできません。

ForestGOMPと呼ばれる研究プロジェクトが 1 つあります。これは、NUMA 対応のドロップイン代替品を提供することを目的としていlibgompます。見てみるといいかもしれません。

c++ - OpenMPとNUMAの関係？

2 に答える 2

Related

Reference