0

slurm、OpenMPI、および python (MKL を使用したアナコンダ) を使用して、マルチノード クラスターでジョブを実行しています。ジョブを送信すると、すべてが期待どおりに機能するようです。ただし、ジョブを実行しているノードの 1 つにログインし、htop を使用して実行中のプロセスを確認すると、開始したジョブが表示され、ジョブごとに、開始したジョブと同じメモリを占有する 10 個の「クローン」プロセスが表示されます。ただし、CPU負荷は0です(変更されるのはPIDとCPU(0%)だけです)他のすべては同じです)。

誰でもこの動作を説明できますか?

ありがとう!

PS ここでは、ジョブを送信するために使用するバッチスクリプトを示します。

#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH  --output="log_dsc%j.out"
#SBATCH  --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py
4

1 に答える 1

0

これらはプログラムによって開始されるスレッドであるため、同じプロセスの一部です。htop で大文字の「H」を押してプロセス スレッドの表示を切り替え、違いを確認します。F2 を押して、[セットアップ] メニューの [表示オプション] を表示します。スレッドを別の色で表示するように切り替えることもできます。

于 2016-01-06T20:22:42.640 に答える