私は、多くの機械学習と計算生物学を行う研究グループで働いています。
現在クラスターがありますが、メンテナンスが不十分で、I/O スループットが低く、最も重要なことに、スケジューリングや負荷分散のためのセットアップがありません。したがって、これを使用するには、空きノードを自分で見つけ、そのノードに SSH で接続し、コマンド ラインでスクリプトを実行して、手動で結果を収集する必要があります。
ユーザーがジョブを中央キューに送信し、リソースが利用可能になったときにジョブを自動的に実行し、結果を簡単に取得できるように、使いやすいスケジューラとロード バランサを実装するのに最適なソフトウェア スタックは何ですか?