問題タブ [slurm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3507 参照

slurm - SLURM スバッチ出力バッファリング

いくつかの slurm スクリプトを作成し、sbatch で実行しようとしました。ただし、出力ファイルは頻繁に更新されるわけではありません (おそらく 1 分に 1 回)。

sbatch で出力バッファリングのレイテンシを変更する方法はありますか? そのような状況で stdbuf が使用されることは知っていますが、sbatch では機能しませんでした。

0 投票する
2 に答える
2727 参照

perl - perlスクリプトを使用してslurmに送信されたジョブのジョブID番号を取得するにはどうすればよいですか?

jobA.sh と jobB.sh の 2 つのジョブがあります。jobA.sh が正常に完了した後に、jobB.sh を開始したい。このためには、jobA.sh のジョブ ID 番号を取得する必要があります。しかし、私のコードの次の部分には問題があります。私のコードは次のエラーを出します。このエラーは、jobB.sh が開始されないことを意味します。コードは、jobA.sh のジョブ ID 番号を取得できませんでした。jobA.sh の jobid 番号を取得するにはどうすればよいですか?

エラー:

送信されたバッチ ジョブ 298784 sbatch: エラー: バッチ ジョブの送信に失敗しました: ジョブの依存関係の問題

コードは jobA.sh を正しく送信しますが、jobB.sh に対して上記のエラーが発生します。

0 投票する
1 に答える
285 参照

cluster-computing - Slurm クラスターでのバッチ ジョブの実行

そのため、これを理解しようと数時間を費やしましたが、助けていただければ幸いです。

私がやろうとしているのは、slurm --array0-654 でバッチジョブを実行することです

各ジョブ ステップで 8 つのスレッドを実行したいと考えています。

クラスター上の 11 個のノードにアクセスでき、それぞれが 32 スレッドに対応していますが、SBATCH 構成を正しく取得できないようです。ノードごとに 1 つのジョブを実行するか、すべてのノードで 200 以上のジョブを実行するようです。

私は多くの異なる構成を試しましたが、誰かが提案を持っているかどうか疑問に思っていました.

0 投票する
2 に答える
271 参照

memory - slurm ジョブでのメモリ/時間の使用状況の項目化

私はこのようなスラームの仕事をしています:

sacct使用すると、ジョブ全体の時間と CPU 使用率を取得できます。また、具体的にそれらの情報を取得することに興味がcmd1ありcmd3ます。どうやってそれができる?ジョブステップとそれsrunを支援しますか?

0 投票する
1 に答える
730 参照

time - SLURM によって報告された時間の使用に関する質問

以下の時間使用状況レポートを理解するのに問題があります。

1) ジョブ ステップ 1 と 2 の時間がバッチ ラインに加算されないのはなぜですか?

TotalCPU2) 特にとの場合、各列間の関係は何CPUTimeですか?

3) ジョブの使用時間については、どれを報告するのが最適ですか?

0 投票する
3 に答える
9492 参照

python - SLURM バッチ スクリプトで Python スクリプトに引数を渡す

2 つの引数を必要とし、コマンド ラインで次のように実行すると問題なく動作する Python スクリプトを作成しました。

pythonscript.py arg1 arg2

これを SLURM バッチ スクリプトで実行する必要がありますが、実行するたびに「不正な命令」エラーとコア ダンプが発生します。これは私が使用しているスクリプトの例です:

コア ダンプの原因を正確に把握するために多くの時間を費やしましたが、これに絞り込みました。バッチスクリプトから実行した場合にのみクラッシュし、引数を指定してスクリプトを実行しようとした場合にのみクラッシュします。引数なしで実行するように変更すると、正しく実行されます。これらの引数を SLURM スクリプト内の Python スクリプトに渡す方法を教えてもらえますか?

0 投票する
1 に答える
1065 参照

linux - SLURM でのマルチスレッド

Parallel::ForkManagerモジュールを使用して fork する Perl スクリプトがあります。

私の知る限り、32 の子プロセスをフォークし、SLURM スケジューラに 4 つのノード (ノードあたり 8 つのプロセッサ) でジョブを実行するように依頼すると、コードはすべてのコアで各子プロセスを実行します。

私のラボの誰かが、複数のノードでジョブを実行すると、他のノードが使用されず、時間とお金を無駄にしていると言いました。これは正確ですか?

フォークするスクリプトを使用する場合、SLURM を使用するノードは 1 つに制限されますか?

0 投票する
2 に答える
553 参照

php - bsub の結果を自動的に取得する

コーディングの解決策ではなく、一般的なアドバイスを探しています。基本的に、bsub 経由でジョブを送信する場合、次のいずれかを指定することで、Stdin/Stdout のログを取得できます。

これらはどちらも優れていますが、私のプログラムは bsub に送信されるとフォルダーを作成し、リモート サーバーに保存します。本質的に私はしたい

a) フォルダーとその内容を取得する b) ジョブの終了時にこれを自動的に行う

技術的には を使用できscp -rますが、これは手動で行う必要があります。ジョブが終了したときに電子メール アラートを受け取った場合はそれほど悪くはありませんが、それでも手動で行う必要があります。

b)に:

bsub が実際の結果を取得するための特別なフラグは表示されず、StdOut のみが表示されます。仕事の時間を使用して設定するスクリプトを作成できると思いますsleepおそらく、安全のために少し長くなります)。

ただし、ログアウトされたり、ジョブが終了する前にスクリプトが終了したりすることについて少し心配しています。

誰か提案はありますか?

私は基本的に、ユーザーがファイルを送信し、ファイルをリモートで分析し、ジョブの開始/終了時にユーザーにメールを送信し、結果を自動的にローカル/Webサーバーに取得し、ユーザーが選択できるというメールを受け取るインターフェイス(将来的にはWebサイト)が必要です彼らの結果をアップします。

それでも一歩ずつ!