0

32 の計算ノードを持つ IBM HPC 4.2 があります。lsf をサポートする Openmpi 1.10.1 をコンパイルしてインストールしました。

問題 : IBM MPI (プラットフォームまたは PMPI でチップ化された MPI) と Openmpi を lsf で使用すると、動作が異なります。

例:両方の実装でhello_world.c mpiの例をコンパイルしました.lsbなしで(bsubなしで)実行を開始すると、

PMPI :mpirun -np 4 -hostlist "compute000 compute001" ./hello_world_pmpi.exe

こんにちは世界!私は compute000 の 4 人中 1 人です

こんにちは世界!私はcompute001で4人中2人です

こんにちは世界!私はcompute001で4人中3人です

こんにちは世界!私は compute000 で 4 人中 0 人です

Openmpi :mpirun -np 4 --host "compute000,compute001" --mca btl self,sm --mca mtl psm ./hello_world_ompi.exe

こんにちは世界!私は compute000 の 4 人中 1 人です

こんにちは世界!私は compute000 で 4 人中 2 人です

こんにちは世界!私はcompute001で4人中3人です

こんにちは世界!私は compute001 で 4 人中 0 人です

これは論理ですが、lsf を使用すると、PMPI で状況が変わります。これはもっと奇妙です !!!! そして私は得る

PMPI :bsub -n 4 -R "span[ptile=2]" -o pmpi-%J.out mpirun ./hello_world_pmpi.exe

猫 pmpi-xxx.out ...

こんにちは世界!私はcompute017で0/1です

オペンピ:bsub -n 4 -R "span[ptile=2]" -o ompi-%J.out mpirun --mca btl self,sm --mca mtl psm ./hello_world_ompi.exe

猫 pmpi-xxx.out ...

**こんにちは世界!私はcompute005の4人中1人です

こんにちは世界!私はcompute010で4人中2人です

こんにちは世界!私はcompute010で4人中3人です

こんにちは世界!私は compute005 で 4 人中 0 人です**

PMPI のインスタンスが 4 つではなく 1 つだけ起動されているようです。

私は IMB (インテル ベンチマーク) と HPCC で同じ問題を抱えています。プロセスが不足していると不満を言っています。lsf がなければ、両方とも正常に動作します。

何か案が?

前もって感謝します

4

0 に答える 0