slurm、OpenMPI、および python (MKL を使用したアナコンダ) を使用して、マルチノード クラスターでジョブを実行しています。ジョブを送信すると、すべてが期待どおりに機能するようです。ただし、ジョブを実行しているノードの 1 つにログインし、htop を使用して実行中のプロセスを確認すると、開始したジョブが表示され、ジョブごとに、開始したジョブと同じメモリを占有する 10 個の「クローン」プロセスが表示されます。ただし、CPU負荷は0です(変更されるのはPIDとCPU(0%)だけです)他のすべては同じです)。
誰でもこの動作を説明できますか?
ありがとう!
PS ここでは、ジョブを送信するために使用するバッチスクリプトを示します。
#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH --output="log_dsc%j.out"
#SBATCH --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py