こんにちは: パスワードなしの認証などを使用して 3 つの仮想マシンをセットアップした OpenMPI 環境をセットアップしているところです。単純な「Hello World」スタイルのプログラムを正常にコンパイル/リンクしました。
#include <stdio.h>
#include <mpi.h>
int main(int argc, char *argv[]) {
int numprocs, rank, namelen;
char processor_name[MPI_MAX_PROCESSOR_NAME];
MPI_Init(&argc, &argv);
MPI_Comm_size(MPI_COMM_WORLD, &numprocs);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Get_processor_name(processor_name, &namelen);
printf("Process %d on %s out of %d\n", rank, processor_name, numprocs);
MPI_Finalize();
}
私が観察したのは、「マシン ファイル」に 3 つの異なるノードのホスト名がある場合、ジョブがハングすることです。個々のノードはそれぞれ正常に機能しています。2 つのノード (つまり、3 つのノードのうち任意の 2 つ) の組み合わせも試しましたが、問題なく動作します。したがって、いずれかのノードが機能しない可能性を割り引くことができます。
どうすればこれをさらに調査できますか? ありがとう!