次のような sbatch スクリプトを使用して slurm で実行する mpi ジョブがあります。
# request 384 processors across 16 nodes for exclusive use:
#SBATCH --exclusive
#SBATCH --ntasks-per-node=24
#SBATCH -n 384
#SBATCH -N 16
#SBATCH --time 3-00:00:00
mpirun myprog
「myprog」プロセスのメモリ/CPU 使用率とその他の動作を監視したいと考えています。これを実行できる簡単なスクリプト (「モニター」と呼びます) を作成しましたが、「myprog」と同時に、割り当てられた各ノードで sbatch を使用して 1 つのコピーを実行する方法に困惑しています。
上記を次のように変更する必要があると思います。
...
srun monitor
mpirun myprog
しかし、a)「モニター」がバックグラウンドで実行されることを意味するかどうか、およびb)「モニター」が実行される場所をどのように制御できるかについて、私は混乱しています。