MPICH2 ライブラリを使用した CRAY スーパーコンピュータ。各ノードには 32 個の CPU があります。
N 個の異なる MPI ランクに単一のフロートがあり、これらの各ランクは異なるノードにあります。このフロートのグループに対してリダクション操作を実行する必要があります。N の任意の値について、ルートで計算されたリダクションで MPI_Reduce が MPI_Gather よりも速いかどうかを知りたいです。ルート ランクで行われるリダクションは、N スレッドを利用できる優れた並列リダクション アルゴリズムを使用して行われると仮定してください。 .
N のどの値でも速くない場合、16 のような小さい N や大きい N の場合に当てはまる傾向がありますか?
本当なら、なぜですか?(たとえば、MPI_Reduce は、ツリーの次のレベルと通信するために使用するアプローチでリダクション操作の時間を隠す傾向があるツリー通信パターンを使用しますか?)