java - hdfs map-reduce が完全分散モードで実際にどのように機能するか

Question

hdfs map-reduce が完全分散モードで実際にどのように機能するかについて、実際には少し混乱しています。

単語カウントプログラムを実行しているとします。「hdfs-site」と「core-site」のパスのみを指定しています。

では、実際にはどのように行われているのでしょうか。

このプログラムは各ノードに配布されているのか、それとも何ですか?

score 1 · Accepted Answer

はい、あなたのプログラムは配布されています。しかし、それがすべてのノードに分散されていると言うのは間違っています。さらに、hadoop は作業中のデータをチェックし、このデータを (構成からのいくつかの制約の下で) 小さな部分に分割し、コードをこれらの部分がある hdfs のノードに移動します (私は、あなたが持っていると仮定します)。ノード上で実行されているデータノードとタスクトラッカー)。最初に、マップパーツがこれらのノードで実行され、データが生成されます。このデータはノードに保存され、マッピングが完了すると、ジョブの 2 番目の部分である削減フェーズがノードで開始されます。

リデューサーはいくつかのノードで開始され (ここでも、ノードの数を構成します)、マッパーからデータをフェッチし、それらを集約して、出力を hdfs に送信します。

java - hdfs map-reduce が完全分散モードで実際にどのように機能するか

1 に答える 1

Related

Reference