hdfs map-reduce が完全分散モードで実際にどのように機能するかについて、実際には少し混乱しています。
単語カウント プログラムを実行しているとします。「hdfs-site」と「core-site」のパスのみを指定しています。
では、実際にはどのように行われているのでしょうか。
このプログラムは各ノードに配布されているのか、それとも何ですか?
はい、あなたのプログラムは配布されています。しかし、それがすべてのノードに分散されていると言うのは間違っています。さらに、hadoop は作業中のデータをチェックし、このデータを (構成からのいくつかの制約の下で) 小さな部分に分割し、コードをこれらの部分がある hdfs のノードに移動します (私は、あなたが持っていると仮定します)。ノード上で実行されているデータノードとタスクトラッカー)。最初に、マップ パーツがこれらのノードで実行され、データが生成されます。このデータはノードに保存され、マッピングが完了すると、ジョブの 2 番目の部分である削減フェーズがノードで開始されます。
リデューサーはいくつかのノードで開始され (ここでも、ノードの数を構成します)、マッパーからデータをフェッチし、それらを集約して、出力を hdfs に送信します。