1

私は、SLURM を使用するコンピューティング クラスターの無料ユーザーです。

ときどき、有料ユーザーのキューを詰まらせる長時間実行される複数のジョブがありました。このため、管理者によってジョブがキャンセルされました。現在、利用できるノードの数に上限がありました。この取り決めの公平性については議論しませんが、これは仕事を成し遂げるという点で私にとって問題です。特に、ジョブがノード キャップを通過するのを待っている間に、ジョブを実行していない空きノードが表示されるためです。 ....

それを背景情報として、ここに私の2つの質問があります:

  1. 管理者がジョブを一時停止してから再開することはできませんか?ジョブ、ユーザーのすべてのジョブ、または一連のジョブのいずれか? 管理者の観点からすると、この一時停止/再開は面倒ですか?

  2. 有料ユーザーと無料ユーザーのリストを作成できるはずだと思います。また、有料のユーザー名が sbatch を使用してサブミットを送信すると、SLURM に無料のユーザー名のジョブまたは複数のジョブを一時停止し、有料のユーザーのジョブが完了したときに再開するように自動的に指示します。これは可能ですか?はいの場合、通常の SLURM / ファーム管理者のスキル範囲外ですか?

誰か他の解決策を提案してもらえますか (上記の質問が不合理またはばかげている場合)。

ありがとうございました!

4

1 に答える 1

0
  1. 管理者は実行scontrol suspend jobidしてからscontrol resume jobid

  2. ここでのキーワードは「QOS」と「プリエンプション」です。通常、QOS は有料ユーザー用に作成され、通常の QOS に対するプリエンプティブな権利を持ちます。料金を支払わないユーザーのジョブは、キャンセル、チェックポイント、再キューイング、または一時停止することができます。

于 2014-11-01T14:22:19.020 に答える