c - Openmp が並列ループを高速化しない

Question

次の恥ずかしい並列ループがあります

//#pragma omp parallel for
for(i=0; i<tot; i++)
    pointer[i] = val;

#pragma 行のコメントを外すとパフォーマンスが低下するのはなぜですか? openmp を使用してこの for ループを並列化すると、プログラムの実行時間がわずかに増加します。各アクセスは独立しているので、プログラムの速度が大幅に向上するはずではありませんか?

この for ループが tot の大きな値に対して実行されない場合、オーバーヘッドによって速度が低下する可能性はありますか?

score 5 · Accepted Answer

共有メモリ環境で複数のスレッドを使用してパフォーマンスを達成するには、通常、次の要素に依存します。

タスクの粒度。
並列タスク間の負荷分散。
並列タスク数/使用コア数;
並列タスク間の同期の量。
アルゴリズムの境界のタイプ。
機械のアーキテクチャ。

上記の各ポイントについて、簡単に概要を説明します。

並列タスクの粒度が、並列化のオーバーヘッド(スレッドの作成や同期など)を克服するのに十分かどうかを確認する必要があります。おそらくループの反復回数であり、計算pointer[i] = val;ではスレッド作成のオーバーヘッドを正当化するのに十分ではありません。ただし、タスクの粒度が大きすぎると、負荷の不均衡などの問題が発生する可能性があることに注意してください。
ロードバランス (スレッドあたりの作業量) をテストする必要があります。理想的には、各スレッドが同じ量の作業を計算する必要があります。あなたのコード例では、これは問題ではありません。
ハイパースレッディングを使用していますか?! コアよりも多くのスレッドを使用していますか?! もしそうなら、スレッドはリソースを求めて「競合」を開始し、これがパフォーマンスの低下につながる可能性があるためです。
通常、スレッド間の同期の量を減らす必要があります。その結果、それを達成するために、より細かい同期メカニズムやデータの冗長性 (他のアプローチの中でも) を使用することがあります。あなたのコードにはこの問題はありません。
コードの並列化を試みる前に、それがメモリや CPU などに依存しているかどうかを分析する必要があります。メモリが制限されている場合は、並列化に取り組む前に、キャッシュの使用を改善することから始めることができます。このタスクでは、プロファイラーの使用を強くお勧めします。
基盤となるアーキテクチャを最大限に活用するには、マルチスレッドアプローチでそのアーキテクチャの制約に取り組む必要があります。たとえば、アーキテクチャで実行するための効率的なマルチスレッドアプローチをSMP実装することは、アーキテクチャで実行するためにそれを実装することとは異なりNUMAます。後者の場合、メモリアフィニティを考慮する必要があります。

編集: @Hristo lliev からの提案

スレッドアフィニティ: 「スレッドをコアにバインドすると、データの局所性が向上するため、一般的にパフォーマンスが向上し、NUMA システムではさらに向上します。」

ところで、マルチスレッドアプリケーションを開発するためのインテルガイドを読むことをお勧めします。

c - Openmp が並列ループを高速化しない

1 に答える 1

Related

Reference