0

hdfs map-reduce が完全分散モードで実際にどのように機能するかについて、実際には少し混乱しています。

単語カウント プログラムを実行しているとします。「hdfs-site」と「core-site」のパスのみを指定しています。

では、実際にはどのように行われているのでしょうか。

このプログラムは各ノードに配布されているのか、それとも何ですか?

4

1 に答える 1

1

はい、あなたのプログラムは配布されています。しかし、それがすべてのノードに分散されていると言うのは間違っています。さらに、hadoop は作業中のデータをチェックし、このデータを (構成からのいくつかの制約の下で) 小さな部分に分割し、コードをこれらの部分がある hdfs のノードに移動します (私は、あなたが持っていると仮定します)。ノード上で実行されているデータノードとタスクトラッカー)。最初に、マップ パーツがこれらのノードで実行され、データが生成されます。このデータはノードに保存され、マッピングが完了すると、ジョブの 2 番目の部分である削減フェーズがノードで開始されます。

リデューサーはいくつかのノードで開始され (ここでも、ノードの数を構成します)、マッパーからデータをフェッチし、それらを集約して、出力を hdfs に送信します。

于 2013-02-08T14:26:51.493 に答える