問題タブ [mpiexec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - EC2 上の MPI 正しいプロセッサー数
starcluster を使用して ec2 にクラスターをセットアップし、scipy スタックをセットアップしました (mpi4py を含む)。クラスター内のプロセッサーと一致する数のプロセッサーで mpi ジョブを発行するように言われました。たとえば、それぞれに 2 つの vcpu があるインスタンス タイプの 4 ノード クラスターを作成する場合、次を発行しますか?
mpiexec -n 4 python mytestfile.py
また
mpiexec -np 8 python mytestfile.py
また、1 つのノードが 8 つすべてを処理するのではなく、各ノードが実際に問題の 2 つのインスタンスを処理していることをどのように確認できますか? 言い換えれば、mpiexec
自動的にすべてを把握しますか?
ssh - ssh 経由で mpiexec コマンドを実行できない
複数の VM があり、これらの VM を使用して並列処理を実行したい。ssh を使用して VM に接続するプログラムを作成しました。mpiexec コマンドは、VM で ssh を介して実行する必要があります。しかし、それは起こっておらず、エラーメッセージも表示されません
mpiexec が実行されていないと思います 何が間違っていますか?
mpi - mpiexec と mpirun
私の少しの知識によるmpirun
と、mpiexec
両方ともランチャーです。mpiexec
との正確な違いがわかる人はいますmpirun
か?
mpich - 複数のノードでの MPICH の停止
MPICH を使用する MPI fortran アプリケーションがあります。これを使用すると、問題なく起動/実行できます。
上記の例では、クラスターの各ノードに 8 つの CPU がある場合、2 つのノードを要求しています。
問題は、/home がヘッド ノードを介して計算ノードにマウントされている NFS であり、これらのディスクへの I/O が非常に遅いことです。さらに、私のアプリケーションには多くの I/O があり、経験上、ヘッド ノードへの NFS マウント ディスクへの過剰な I/O により、ヘッド ノードがロックされ (これは悪いことです)、完全に応答しなくなる可能性があります。
クラスタ システムには、各ノードの各 JOB 用にローカルにマウントされたディスクがあり (環境変数 TMPDIR を使用してこのディレクトリにアクセスできます)、ジョブをこのディスクで実行する必要があります。これを知っていれば、私の戦略は非常に単純です。
- ファイルを /home から $TMPDIR に移動します
- $TMPDIR でシミュレーションを開始します
- モデルが停止したら、アプリケーションからの出力を /home に戻します
上記のすべての手順を実行し、クラスター システム (PBS/Torque) を 1 つのノードだけに要求する場合、問題はありません。
しかし、複数のノードを尋ねると
次のエラーが発生しました。
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)
[proxy:0:0@compute-0-1.local] HYD_pmcd_pmip_control_cmd_cb (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip_cb.c:955): アサート (!closed) に失敗しました
[proxy:0:0@compute-0-1.local] HYDT_dmxu_poll_wait_for_event (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/demux/demux_poll.c:77): コールバックがエラー ステータスを返しました
[proxy:0:0@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip.c:226): イベントを待っている demux エンジン エラー
[mpiexec@compute-0-1.local] HYDT_bscu_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/utils/bscu_wait.c:70): プロセスの 1 つが異常終了しました。中止する
[mpiexec@compute-0-1.local] HYDT_bsci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/src/bsci_wait.c:23): ランチャーが完了待ちエラーを返しました
[mpiexec@compute-0-1.local] HYD_pmci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmiserv_pmci.c:191): ランチャーが完了待ちエラーを返しました
[mpiexec@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/ui/mpich/mpiexec.c:405): 完了待ちのプロセス マネージャー エラー
私は何を間違っていますか?
pbs - プログラムの終了時に mpiexec が終了しない
クラスターで mpi プログラムを実行しています。プログラムが終了しても、ジョブは終了しません。そのため、タイムアウトするまで待つ必要があります。
これをデバッグする方法がわかりません。プログラムが MPI のファイナライズ ステートメントに達したことを確認しました。libエレメンタルを使用しています。
プログラムの最終行
出力は
これらのモジュールをhttps://campuscluster.illinois.edu/hardware/#taubで実行する
parallel-processing - Torque は、mpiexec が使用するノードの数を制限しません
したがって、次の pbs ファイルを同時に実行しています。
qsub /mnt/folder/prueba1_1 qsub /mnt/folder/prueba01
ここにファイルがあります
プルエバ1_1
プルエバ01
ファイル machinefile には、それぞれ 1 つのプロセッサを備えた 2 つのノード slave02 と slave03 が含まれています。
各 pbs ファイルがジョブごとに 1 つのノードと 1 つのプロセッサのみを使用するように指定していますが (#PBS -l nodes=1:ppn=1 を使用)、出力ファイルは、各ジョブが両方のノードを同時に使用していることを示しているようです。これらの pbsfiles は 1 つのノードと 1 つのプロセッサのみを使用する必要があるため、私にとっては、prueba1_1 は 1 つのプロセッサで slave02 を使用し、prueba01 は別のプロセッサで Slave02 を使用する必要があるのはなぜでしょうか。
出力ファイルはこちら
salida1_1.o
salida01.o
python - mpiexec と python mpi4py はランク 0 とサイズ 1 を与えます
仮想マシンで python Hello World mpi4py コードを実行する際に問題があります。
hello.py コードは次のとおりです。
mpiexec と mpirun を使用して実行しようとしましたが、うまく動作しません。出力:
そしてmpiexecから:
彼らは通信のランクとサイズを取得していないようです。何が原因でしょうか? それを解決する方法は?
システムは、仮想マシン上の Ubuntu 14.04 です。
理由はありますか?ありがとう!
c++ - ユーザー定義関数を使用した MPI_Reduce が一部のプロセスでクラッシュし続ける
MPI_Reduce を使用する場合、複雑なデータ構造を処理する必要があります。そのため、MPI_Op_create を使用して独自の reduce 関数を定義する必要があります。しかし問題は、非常に単純なユーザー定義関数であっても、1 つまたは複数のプロセスがクラッシュし続けていることです。これは MPI_SUM と同じです。
コードは以下に添付されています。MPI_Reduce のパラメーターを「myOp」から「MPI_SUM」に変更すると、コードは完全に機能することに注意してください。したがって、問題はユーザー定義関数「myOp」にあると確信しています。しかし、関数「MAX_DataSet」でさらにデバッグすると、関数が適切に機能し、内部で正しい結果が得られることが示されました。しかし、プログラムは MPI_Reduce を正しく実行できません。その理由は何ですか...どんな助けでも大歓迎です!