1

私は MVAPICH2 の新しいユーザーであり、使い始めたときにトラブルに遭遇しました。
まず、次の方法で正常にインストールできたと思います:
./configure --disable-fortran --enable-cuda
make -j 4
make install
エラーはありませんでした。

しかし、example のディレクトリで cpi の例を実行しようとすると、次のように遭遇しました。

  1. パスワードなしで ssh 経由でノード gpu-cluster-1 と gpu-cluster-4 を接続できました。

  2. mpirun_rsh を使用して gpu-cluster-1 と gpu-cluster-4 で cpi の例を別々に実行したところ、次のように問題なく動作しました:
    run@gpu-cluster-1:~/mvapich2-2.1rc1/examples$ mpirun_rsh -ssh -np 2 gpu-cluster-1 gpu-cluster-1 ./cpi
    プロセス 0/2 は gpu-cluster-1 上にあります プロセス 1/2 は gpu-cluster-1
    上にあります
    pi は約 3.1415926544231318、エラーは 0.0000000008333387
    壁時計時間 = 0.000089

    run@gpu-cluster-4:~/mvapich2-2.1rc1/examples$ mpirun_rsh -ssh -np 2 gpu-cluster-4 gpu-cluster-4 ./cpi
    プロセス 0/2 は gpu-cluster-4 上にあります
    プロセス 1 gpu-cluster-4 上に 2 個あります
    pi は約 3.1415926544231318、エラーは 0.0000000008333387
    ウォール クロック時間 = 0.000134 です

  3. mpiexec を使用して gpu-cluster-1 と gpu-cluster-4 の両方で cpi の例を実行したところ、次のように問題なく動作しました:
    run@gpu-cluster-1:~/mvapich2-2.1rc1/examples$ mpiexec -np 2 -f hostfile ./cpi プロセス
    0/2 は gpu-cluster-1 にあります プロセス1/2
    は gpu-cluster-4 に ありcluster-1\ngpu-cluster-4"




  4. しかし、gpu-cluster-1 と gpu-cluster-4 で mpirun_rsh、borh を使用して cpi の例を実行すると、問題が発生しました:

    run@gpu-cluster-1:~/mvapich2-2.1rc1/examples$ mpirun_rsh -ssh - np 2 -hostfile hostfile ./cpi プロセス 1/2 は gpu-cluster-4 にあります
    -----------------ここで動かなくなり、進行しません ------- -----------------
    久しぶりに Ctrl + C を押すと、

    ^C[gpu-cluster-1:mpirun_rsh][signal_processor] Caught signal 2 が表示されます。 , kill job
    run@gpu-cluster-1:~/mvapich2-2.1rc1/examples$ [gpu-cluster-4:mpispawn_1][read_size] ファイル記述子の予期しない End-Of-File 6. MPI プロセスが停止しましたか?
    [gpu-cluster-4:mpispawn_1][read_size] ファイル記述子 6 で予期しない End-Of-File が発生しました。MPI プロセスが停止しましたか?
    [gpu-cluster-4:mpispawn_1][handle_mt_peer] PMI ソケットの読み取り中にエラーが発生しました。MPI プロセスが停止しましたか?
    [gpu-cluster-4:mpispawn_1][report_error] connect() が失敗しました: 接続が拒否されました (111)
    長い間混乱していました。この問題を解決するために何か助けてもらえますか?

cpi の例のコードは次のとおりです。

#include "mpi.h" #include <stdio.h> #include <math.h> double f(double); double f(double a) { return (4.0 / (1.0 + a*a)); } int main(int argc,char *argv[]) { int n, myid, numprocs, i; double PI25DT = 3.141592653589793238462643; double mypi, pi, h, sum, x; double startwtime = 0.0, endwtime; int namelen; char processor_name[MPI_MAX_PROCESSOR_NAME]; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); MPI_Get_processor_name(processor_name,&namelen); fprintf(stdout,"Process %d of %d is on %s\n", myid, numprocs, processor_name); fflush(stdout); n = 10000; /* default # of rectangles */ if (myid == 0) startwtime = MPI_Wtime(); MPI_Bcast(&n, 1, MPI_INT, 0, MPI_COMM_WORLD); h = 1.0 / (double) n; sum = 0.0; /* A slightly better approach starts from large i and works back */ for (i = myid + 1; i <= n; i += numprocs) { x = h * ((double)i - 0.5); sum += f(x); } mypi = h * sum; MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) { endwtime = MPI_Wtime(); printf("pi is approximately %.16f, Error is %.16f\n", pi, fabs(pi - PI25DT)); printf("wall clock time = %f\n", endwtime-startwtime); fflush(stdout); } MPI_Finalize(); return 0; }

4

0 に答える 0