“slurm”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

958 参照

mpi - srun を介して起動された MPI ジョブでのプロセスのピン留め

SLURM クラスターで MPI ジョブを実行していて、結果のプロセスをノード上の特定のコアに固定したいと考えています。これには、異なるノード上の異なる数のプロセスと、異なるノード上の異なる固定パターンが含まれる場合があります。salloc を使用してノードの割り当てを取得し、mpi プロセスのランクファイルを作成し、mpirun を使用してプロセスを開始すると、これはすべて比較的簡単です。

残念ながら、タイムアウトやプリエンプションなどの理由で割り当てが取り消された場合、ノードで実行されているプロセスは強制終了されますが、ヘッドノードで実行されている mpirun は強制終了されず、無視できる負荷の生成から 100 の生成に移行します。無期限に実行されているスレッドの % 負荷。

答えは mpirun の代わりに srun を使用してアプリケーションを起動することであると思われますが、これを行う場合にプロセスの配置を設定する方法を見つけるのに苦労しています。誰にも提案はありますか？

mpi slurm

2014-12-18T12:11:34.953

0 投票する

1 に答える

1476 参照

parallel-processing - slurm が要求されたよりも多くのタスクを起動しているようです

SLURM がsbatchスクリプトからジョブを起動する方法がわかりません。SLURM が--ntasks引数を無視しsrunて、バッチファイル内のすべてのタスクをすぐに起動しているようです。StackOverflowのこの回答のコードを少し変更した例を次に示します。

したがって、私のセットアップでは、srun echoコマンドはすぐに実行されますが、コマンドの終了後に実行されると予想されますsrun sleep 10。

私は SLURM 2.6.5 を使用して、8 コアの個人用ワークステーションでジョブのスケジュールと送信を行っています。自分でインストールしたため、構成が壊れている可能性は十分にあります。slurm.conf ファイルの関連部分を次に示します。

printenv | grep SLURM実行後の出力は次のとおりですsalloc --ntasks=1

コメントや提案をいただければ幸いです。さらに情報が必要な場合はお知らせください。

読んでくれてありがとう、

トム

もう少し遊んだら更新

私はある程度の進歩を遂げましたが、まだ私が望む動作を完全には得ていません。

使用すると、ステップを待機--exclusiveするステップを取得できます。echosleep

と

しかし、各ステップが複数のプロセッサを必要とする複数ステップのジョブを実行している場合、これを適切に行う方法はまだわかりません。

12個stressのプロセスを提供します。

sbatchでは、スクリプトで 6 つのプロセッサを使用し、それぞれ 2 つのプロセッサで一度に 3 つのステップを開始するにはどうすればよいでしょうか? 使い方は正しいsrun --exclusive -n 1 -c 2 stress -c 2ですか？

2015-01-13T14:21:03.093

0 投票する

1 に答える

3810 参照

python - 並列化された Python コードを使用してクラスターで複数のノード/コアを使用する方法

joblibとmultiprocessingを使用してコードの一部を並行して実行するPython コードがあります。これをデスクトップで問題なく実行できます。タスクマネージャーを使用して、4 つのコアすべてを使用し、コードを並行して実行していることを確認できます。

最近、100 以上の 20 コアノードを備えた HPC クラスターにアクセスできることを知りました。クラスターは、ワークロードマネージャーとして SLURMを使用します。

最初の質問は、クラスターで並列化された Python コードを実行することは可能ですか?

もし可能ならば、

私が持っている Python コードは、クラスターで実行するためにまったく変更する必要がありますか?
コードの並列化された部分を 4 つのコア (または 4 つのノード) で実行する必要があることを伝えるために、ジョブ送信ファイルにどの #SBATCH 命令を入れる必要がありますか?

私がアクセスできるクラスターには、次の属性があります。

python python-2.7 hpc slurm

2015-01-21T16:30:03.510

0 投票する

1 に答える

4332 参照

linux - sbatch SLURM を使用しているときに NonZeroExitCode を取得し続けるのはなぜですか?

次のコマンドで実行している単純な test.ksh があります。

スバッチ test.ksh

「JobState=FAILED Reason=NonZeroExitCode」を取得し続けます (「scontrol show job」を使用)

私はすでに次のことを確認しています。

slurmd と slurmctld が正常に稼働している
「test.ksh」のユーザー権限は777です。
コマンド "srun test.ksh" (sbatch を使用せずに単独で)は問題なく成功します。
「test.ksh」の最後の行に「return 0」を入れてみましたが、うまくいきませんでした
「test.ksh」の最後の行に「exit 0」を入れてみましたが運が悪かったです
「test.ksh」の最後の行に「ホスト名」を入れてみましたが、うまくいきませんでした
「test.ksh」の最後の行に「srun hostname」を入れてみたがうまくいかなかった

linux slurm sbatch

2015-01-22T16:29:45.090

0 投票する

2 に答える

522 参照

scripting - 異なるノードで異なる入力ファイルを使用して実行可能ファイルを実行するための SGE の設定

以前は SLURM スケジューラを使用してクラスターを操作していましたが、今では多かれ少なかれ SGE ベースのクラスターに切り替える必要があり、コツをつかもうとしています。私が SLURM システムで作業していたのは、N 個の入力ファイルを使用して実行可能ファイルを実行し、この方法で SLURM 構成ファイルを設定することでした。

そして、SLURM で作業中の送信スクリプトには次の行が含まれています。

このセットアップは、10 個のノードで同時に 10 個の異なる入力で実行可能ファイルを実行するという、私が望んだとおりに機能しました。SGEシステムに移行したばかりなので、同じことをしたいのですが、マニュアルを読んでみましたが、SLURMとまったく同じものは見つかりませんでした。SGE システムで同じことを達成する方法を教えてください。

どうもありがとうございました！

scripting submission sungridengine slurm

2015-01-28T19:02:23.293

0 投票する

1 に答える

40204 参照

slurm - 実行中の slurm ジョブに時間を追加する

slurm によって管理される Linux マシンを実行する仕事があります。ジョブが数時間実行されたので、ジョブが完了するまでに必要な時間を過小評価していたことに気付きました。したがって、--time指定した引数の値が十分ではありません。slurm を介して既存の実行中のジョブに時間を追加する方法はありますか?

slurm

2015-02-09T15:37:30.153

問題タブ [slurm]

mpi - srun を介して起動された MPI ジョブでのプロセスのピン留め

parallel-processing - slurm が要求されたよりも多くのタスクを起動しているようです

python - 並列化された Python コードを使用してクラスターで複数のノード/コアを使用する方法

linux - sbatch SLURM を使用しているときに NonZeroExitCode を取得し続けるのはなぜですか?

scripting - 異なるノードで異なる入力ファイルを使用して実行可能ファイルを実行するための SGE の設定

slurm - 実行中の slurm ジョブに時間を追加する

Reference