scala - Slur 上で Spark を実行する

Question

Slurm クラスター上で Spark を実行するにはどうすればよいですか? プログラム内で SparkContext を定義し、使用するノードの数を設定することに非常に興味がありますが、そのための bash スクリプトを作成する必要がある場合でも、それは問題ありません。

score 8 · Accepted Answer

Magpie ( https://github.com/llnl/magpie ) は、従来の HPC クラスター (SLURM によって管理されるものなど) 上でビッグデータアプリケーション (Spark など) を実行するために使用されるシェルスクリプトのパッケージです。これはジョブのキューイングの複雑さの多くを管理しますが、独自の Spark アプリケーションに合わせて送信スクリプトを変更する必要がある場合もあります。詳細については、ファイルsubmission-scripts/script-sbatch/magpie.sbatch-sparkを参照してください。

score 1 · Accepted Answer

2 つのオプションがあります。

Slurm が行うことは何でも、Spark のスタンドアロンモードを並べて使用するだけです。これは、ターゲットマシン上のリソースの静的サブセットを各システムに割り当てることを意味します。
Spark のクラスターオプションとして Slurm を実装します。これは、リソースの真の管理と共有には最適ですが、Spark のクラスタリングの抽象化を理解し、正しく実装する必要があるため、はるかに困難です。YARN または Mesos のサポートがどのように実装されているかを調べることから始めることができます。

scala - Slur 上で Spark を実行する

2 に答える 2

Related

Reference