問題タブ [slurm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - Slurm:アカウントの制限を取得する
私たちのクラスターはSLURMを使用してジョブキューを管理しています。Slurmは、各アカウントが使用したコア時間数を監視しており、割り当てられたコア時間を超えて使用したアカウントから送信されたジョブの優先順位を下げます。
アカウントのこれらの制限を表示するコマンドがslurmにありますか?優先順位を下げる前に使用できるコア時間数を知りたいのですが。
multithreading - 別のスレッドを起動しようとしているときに、ジョブの繰り返し (コアごとに 1 つ) を回避するにはどうすればよいですか?
複数の大きな独立したファイルを処理しています (各ファイルに対して同じプロセス、プロセス間の通信はありません)。したがって、並列マルチコア処理に適していると思われる状況があります。実際、複数のコアを備えた優れたサーバー (Scientific Linux -Red Hat Enterprise-) にアクセスできます。
これらのコアを活用するために、Perl でいくつかのスクリプトを作成しようとしています。threads
モジュールとの両方を試しましたParallel::ForkManager
。を使用してサーバーに作品を起動しますsbatch
。ここで、使用するタスク (コア) の数 (および使用するメモリなど) を定義できます。それにもかかわらず、X 個のタスクを選択してジョブを起動すると、ジョブはコア間で分割されず、常に繰り返し (X 回、各コアで 1 回) 実行されます。何か大きなもの (そして基本的なもの) が欠けていることは確かですが、1 週間すべての方向に進んだ後では、それが何であるかわかりません。何がうまくいかないのですか?
Perl スクリプトの例を次に示します ( test.pl
)。
そして、sbatch
これを起動するために使用されるスクリプトの例:
出力 (先ほど言ったように、プロセス全体が各コアで 1 回繰り返されたようです):
linux - SLURM でのジョブ ステータス
クラスターで最近実行されたすべてのジョブ (完了、失敗、実行中) を表示したいと考えています。また、ジョブごとに 1 つのエントリを表示したいと思います。を実行sacct
すると、ジョブごとに 3 行再実行されState: FAILED, FAILED, COMPLETED
ます。これはどういう意味ですか?また、見たい実際の情報を表示するにはどうすればよいですか?
JobName
のtrue
意味もわかりません。
出力のコピーを次に示します。
送信スクリプト (<% %> の値は R のパッケージ BatchJobs によって処理されることに注意してください):
linux - Slurm ジョブ ID を使用する
クラスターで計算を開始すると、通常、最後に後処理を行う別のプログラムがあります。
入力ミスを避けて、適切なジョブ ID を自動的に挿入したいと考えています。何か案が?ありがとう
slurm - slurm ジョブ スケジューラ sacct は、保留中および実行中のジョブのみを表示し、プロローグはありません
私はslurmにかなり慣れていません。プロローグなしで、現在実行中および保留中のジョブのみを表示する方法を探しています。
なぜプロローグを印刷しているのか、プロローグとは何ですか?
hadoop - Slurm: salloc と srun で実行されるコードの違いは何ですか
slurm によって管理されるクラスターを使用して、yarn/hadoop ベンチマークを実行しています。これを行うために、slurm によって割り当てられたノードで Hadoop サーバーを起動し、それらでベンチマークを実行しています。これは本番環境の Hadoop クラスターを実行するための意図された方法ではありませんが、必要があることは理解しています。
これを行うために、srun などで実行されるスクリプトを作成することから始めましたsrun -N 4 setup.sh
。このスクリプトは構成ファイルを書き込み、割り当てられたノードでサーバーを起動します。最も小さい番号のマシンがマスターとして機能します。これはすべて機能し、アプリケーションを実行できます。
ただし、サーバーを一度起動してから、最初にすべてを再起動/エンコードせずに複数のアプリケーションを起動したいので、salloc
代わりに使用したいと思います。salloc -N 4
これは、 を実行してから実行する単純なケースだと思っていましたsrun setup.sh
。残念ながら、異なるサーバーが互いに通信できないため、これは機能しません。thenを使用する場合srun
と使用する場合の動作環境の違いを説明してくれる人はいますか?salloc
srun
どうもありがとう
ダニエル
slurm - 状態「ドレイン」とはどういう意味ですか?
使用するsinfo
と、次のように表示されます。
状態「ドレイン」とはどういう意味ですか?