hadoop - map タスクが常に単一ノードで実行される理由

Question

4 つのノードを持つ完全分散型 Hadoop クラスターがあります。Jobtracker にジョブを送信すると、12 個のマップタスクが自分のジョブにとって適切であると判断されますが、何か奇妙なことが起こります。クラスター全体。質問する前に、私はすでに以下のことを行っています。

しかし、うまくいかないので、誰かが理由と修正方法を教えてくれることを願っています.

score 0 · Accepted Answer

入力データファイルのすべてのブロックがそのノードにある場合、スケジューラは同じノードを優先します。

score 0 · Accepted Answer

入力がどのように分割されているかを確認してください。入力分割は 1 つしかない場合があります。つまり、データの処理に使用されるノードは 1 つだけです。ステムにさらに入力ファイルを追加し、それらを異なるノードに配置して、どのノードが作業を行っているかを確認することで、これをテストできます。

それでもうまくいかない場合は、クラスターが正しく構成されていることを確認してください。具体的には、名前ノードのファイルに他のノードセットへのパスが設定されてslavesいること、および各スレーブノードのmastersファイルに名前ノードセットが設定されていることを確認します。

score 0 · Accepted Answer

どうやら、ソースデータファイルは 1 つのデータノードにあるようです。バランサーのせいではありません。私が見る限り、hdfs にはレプリケーションが 1 つしかないか、完全分散型 Hadoop クラスターに属していません。

3 に答える 3