スラームのシステムを学ぼうとしているのですが、理解に苦戦しています。sbatch で --array パラメーターを使用して、一連のジョブを並行して実行しようとしています。ジョブを複数のノードに分散させたいのですが、タイムスタンプを考えると、それらはすべて同じノードで実行されているようです。
私が使用しているsbatchコマンド:
sbatch -N 10 -a 0-19 --cpus-per-task 10 test.sh
実行中の test.sh ファイル:
#!/usr/bin/env bash
#SBATCH -o test_%a.out
#SBATCH -p all.q
#SBATCH --time=1:00:00
srun --cpus-per-task 10 -k --exclusive --ntasks 1 -N 1 echo "`date ` array_index: $SLURM_ARRAY_TASK_ID node: $SLURM_NODEID requested nodes: $SLURM_NNODES `sleep 3`"
出力ファイル:
Thu Feb 12 19:51:28 UTC 2015 array_index: 0 node: 0 requested nodes: 10
Thu Feb 12 19:51:45 UTC 2015 array_index: 10 node: 0 requested nodes: 10
Thu Feb 12 19:51:45 UTC 2015 array_index: 11 node: 0 requested nodes: 10
Thu Feb 12 19:51:49 UTC 2015 array_index: 12 node: 0 requested nodes: 10
Thu Feb 12 19:51:49 UTC 2015 array_index: 13 node: 0 requested nodes: 10
Thu Feb 12 19:51:52 UTC 2015 array_index: 14 node: 0 requested nodes: 10
Thu Feb 12 19:51:52 UTC 2015 array_index: 15 node: 0 requested nodes: 10
Thu Feb 12 19:51:56 UTC 2015 array_index: 16 node: 0 requested nodes: 10
Thu Feb 12 19:51:56 UTC 2015 array_index: 17 node: 0 requested nodes: 10
Thu Feb 12 19:51:59 UTC 2015 array_index: 18 node: 0 requested nodes: 10
Thu Feb 12 19:51:59 UTC 2015 array_index: 19 node: 0 requested nodes: 10
Thu Feb 12 19:51:28 UTC 2015 array_index: 1 node: 0 requested nodes: 10
Thu Feb 12 19:51:32 UTC 2015 array_index: 2 node: 0 requested nodes: 10
Thu Feb 12 19:51:32 UTC 2015 array_index: 3 node: 0 requested nodes: 10
Thu Feb 12 19:51:35 UTC 2015 array_index: 4 node: 0 requested nodes: 10
Thu Feb 12 19:51:35 UTC 2015 array_index: 5 node: 0 requested nodes: 10
Thu Feb 12 19:51:39 UTC 2015 array_index: 6 node: 0 requested nodes: 10
Thu Feb 12 19:51:39 UTC 2015 array_index: 7 node: 0 requested nodes: 10
Thu Feb 12 19:51:42 UTC 2015 array_index: 8 node: 0 requested nodes: 10
Thu Feb 12 19:51:42 UTC 2015 array_index: 9 node: 0 requested nodes: 10