3

フレンドリーな皆さん、こんにちは。

私の質問はかなり具体的です。

1 週間以上にわたって、sbatch と srun を使用した科学実験のために、何千ものシングル スレッド ジョブを送信しようとしています。

問題は、これらのジョブが完了するまでに異なる時間がかかる場合があり、一部のジョブはメモリ制限を超えたために中止されることさえあることです。どちらの動作も問題なく、私の評価はそれに対応しています。

しかし、ジョブが送信されたにもかかわらず、一部のジョブが開始されないという問題に直面しています。

私のスバッチ スクリプトは次のようになります。

#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000

for i in {1..500}
do

   srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &   
   wait 5s

done

現在、エラーログに次のメッセージが表示されています。

srun: Job 1846955 step creation temporarily disabled, retrying

1) 「ステップの作成を一時的に無効にする」とはどういう意味ですか? すべての CPU がビジーで、ジョブが省略されているか、または後でリソースが解放されたときにジョブが再開されますか?

2) 一部のジョブが実行されないのはなぜですか?どうすれば修正できますか? srun に正しいパラメーターを使用していますか?

ご協力いただきありがとうございます!

4

1 に答える 1