次のコマンドで実行している単純な test.ksh があります。
スバッチ test.ksh
「JobState=FAILED Reason=NonZeroExitCode」を取得し続けます (「scontrol show job」を使用)
私はすでに次のことを確認しています。
- slurmd と slurmctld が正常に稼働している
- 「test.ksh」のユーザー権限は777です。
- コマンド "srun test.ksh" (sbatch を使用せずに単独で)は問題なく成功します。
- 「test.ksh」の最後の行に「return 0」を入れてみましたが、うまくいきませんでした
- 「test.ksh」の最後の行に「exit 0」を入れてみましたが運が悪かったです
- 「test.ksh」の最後の行に「ホスト名」を入れてみましたが、うまくいきませんでした
- 「test.ksh」の最後の行に「srun hostname」を入れてみたがうまくいかなかった