問題タブ [slurm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
226 参照

cluster-computing - slurm ジョブで CPU 使用率を確認するにはどうすればよいですか

slurm を使用してクラスター内の CPU 使用率を監視する方法はありますか。たとえば、200 個のノードがあり、それらすべての 200 個のノードを使用する mpi 作業を送信したとします。1 つのノードのみが使用され (実際には計算を行っている)、もう 1 つのノードは使用されていない可能性があります。200ノードの平均CPU負荷、またはすべてのCPUの現在のCPU負荷を教えてくれるオプションはありますか?

編集:BlueGeneマシン上

ありがとう。

0 投票する
1 に答える
437 参照

mpi - MPI と Slurm の概念

次の基本的な概念を理解するのに少し問題があります。

  • MPI が計算を識別するためにランクを割り当てる場合、プロセス、スレッド、CPU など、正確には誰にランクが割り当てられるのでしょうか?
  • X 個の CPU で mpi ジョブを実行するように指定するにはどうすればよいですか?
  • mpirun の使用と srun の使用の違いは何ですか?
  • 複数のパーティションにわたって mpi ジョブを実行できますか?
0 投票する
1 に答える
338 参照

slurm - すべてのジョブが完了した後にメールを送信するように slurm を設定しますか?

自分のデーモンを書かずにそれを行うことは可能ですか? slurm がジョブごとにメールを送信できることは知っていますが、保留中または実行中のジョブがなくなったら 1 通のメールを希望します。

0 投票する
1 に答える
2690 参照

bash - SLURM で最上位スクリプトなしでバイナリを実行する

SGE/PBS では、ローカルで行うのと同じように、バイナリ実行可能ファイルをクラスターに送信できます。例えば:

出力ファイルに「hello」という単語を書き込む、echo という名前のジョブを送信します。

同様のジョブを SLURM に送信するにはどうすればよいですか。ファイルの最初の行に hash-bang インタープリターがあると想定しています。SLURMで私は得る

または疑似 qsub を使用します。

私はスクリプトを書きたくありません#!/bin/bash。先頭にコマンドを置き、次の行にコマンドを入れて、それらをスバッチに送信します。この余分な作業を回避する方法はありますか? もっと生産的な方法が必要です。

0 投票する
1 に答える
437 参照

email - mailx が SLURM で動作することを期待する必要がありますか?

この単純なスクリプト ( simple_mail.sbatch) をコマンド ラインから直接実行すると、2 つのメールが送信されます。ヘッド ノードと、私が試したクラスター ノードのいずれかで問題なく動作します。

しかし、 を使用して実行するsbatchと、キャプチャされた標準出力に最初と最後の echo コマンドの結果が表示されますが、電子メールは送信されません。

「ラップされた」コマンドでsrunあり、公平ではありません。


バージョン情報:

ちなみに、一部のシステムmailxでは as と呼ばれることがありmailます。


stackoverflow に関する他のslurmmailxの質問を見てきましたが、この問題に対処しているようには見えませんでした。

私は環境変数を調べ、すべての環境変数を同じに設定しようとしましたが (SLURM で始まるものも含め)、動作の違いは依然として残っています。

0 投票する
1 に答える
807 参照

slurm - Slurm sinfo 形式

slurm で「sinfo」を使用すると、パーティションの 1 つの近くにアスタリスクが表示されます (例: RUNNING-CLUSTER*)。

パーティションは正常に見え、その下のすべてのノードはアイドル状態です。

たとえば、「sleep 300」で単純なスクリプトを実行すると、(「squeue」を使用して) キュー内のジョブを確認できますが、数秒間実行されて終了します。エラー メッセージはありません (ログに失敗したことがわかります。それ以上の情報はありません)。

アスタリスクの目的は何か分かりますか? 説明書で見つけられませんでした。

ありがとう。

0 投票する
1 に答える
942 参照

python - クラスター上よりもローカルで高速に実行される Python マルチプロセッシング (スラーム)

次のコードがあります

これを 6 コア プロセッサを搭載したデスクトップで実行したnum_proc=mp.cpu_count()ところ、問題なく高速に動作しましたが、処理クラスタのスバッチ スクリプトでこのスクリプトを実行しようとすると、-N 1 -n 20 (ノードごとに24 個のプロセッサ)、または任意の数のプロセッサを使用すると、実行速度が非常に遅くなり、10 ~ 15 個のプロセッサしか使用していないように見えます。slurm を操作するためにマルチプロセッシングを最適化する方法はありますか?