他の素晴らしい答えにまで広げて、いくつかの画像で説明したいと思います。
Spark スタンドアロン モードには、マスター ノードとワーカー ノードがあります。
スタンドアロン モードの 1 つの場所でマスターとワーカーの両方を表す場合 (CPU とメモリが利用可能な場合、各ワーカーは複数のエグゼキューターを持つことができます)。
Spark が YARN とどのように連携するかに興味がある場合は? この投稿を確認してくださいYARNのSpark
1. 2 つのワーカー インスタンスは、2 つのワーカー プロセスを持つ 1 つのワーカー ノードを意味しますか?
一般に、worker インスタンスはspark タスク/ジョブを実行するプロセスであるため、スレーブと呼びます。ノード (物理マシンまたは仮想マシン) とワーカーの推奨されるマッピングは、次のとおりです。
1 Node = 1 Worker process
2. すべてのワーカー インスタンスが特定のアプリケーション (ストレージ、タスクを管理する) のエグゼキューターを保持していますか、それとも 1 つのワーカー ノードが 1 つのエグゼキューターを保持していますか?
はい。十分な CPU、メモリ、およびストレージがあれば、ワーカー ノードは複数のエグゼキューター(プロセス)を保持できます。
指定されたイメージのワーカー ノードを確認します。
ところで、特定の時点でのワーカー ノード内のエグゼキューターの数は、クラスターのワークロードと、エグゼキューターの数を実行するノードの機能に完全に依存します。
3. スパーク ランタイムの方法を説明するフローチャートはありますか?
プログラムの任意のリソース マネージャーで Spark の観点から実行を見ると、join
2 つrdd
の s と何らかのreduce
操作が行われます。filter
ハイ