私は、SLURM を使用するコンピューティング クラスターの無料ユーザーです。
ときどき、有料ユーザーのキューを詰まらせる長時間実行される複数のジョブがありました。このため、管理者によってジョブがキャンセルされました。現在、利用できるノードの数に上限がありました。この取り決めの公平性については議論しませんが、これは仕事を成し遂げるという点で私にとって問題です。特に、ジョブがノード キャップを通過するのを待っている間に、ジョブを実行していない空きノードが表示されるためです。 ....
それを背景情報として、ここに私の2つの質問があります:
管理者がジョブを一時停止してから再開することはできませんか?ジョブ、ユーザーのすべてのジョブ、または一連のジョブのいずれか? 管理者の観点からすると、この一時停止/再開は面倒ですか?
有料ユーザーと無料ユーザーのリストを作成できるはずだと思います。また、有料のユーザー名が sbatch を使用してサブミットを送信すると、SLURM に無料のユーザー名のジョブまたは複数のジョブを一時停止し、有料のユーザーのジョブが完了したときに再開するように自動的に指示します。これは可能ですか?はいの場合、通常の SLURM / ファーム管理者のスキル範囲外ですか?
誰か他の解決策を提案してもらえますか (上記の質問が不合理またはばかげている場合)。
ありがとうございました!