hadoop - MapReduceジョブを実行するときの一連のイベント

Question

HadoopクラスターでMapReduceジョブを実行するときの一連のイベントに関する特定の情報を探しています。

私のReduceタスクが完了間近であると仮定しましょう。最後のレデューサーが出力を出力ファイルに書き込んだ後、出力ファイルのレプリカはいくつありますか？最後のレデューサーが出力ファイルへの書き込みを終了した後に正確に何が起こるか。NameNodeはいつ出力ファイルを複製するようにそれぞれのデータノードに要求しますか？そして、出力ファイルの準備ができたことをName Nodeにどのように通知しますか？誰がその情報をNameNodeに伝えますか？

ありがとうございました！

score 3 · Accepted Answer

Reduce タスクは出力を HDFS に書き込みます。これは、最初に名前ノードと通信してブロックを要求することによって行われます。次に、名前ノードは書き込み先のデータノードをレデューサーに通知し、レデューサーは実際にデータを最初のデータノードに直接送信します。次に、データノードはデータを 2 番目のデータノードに送信し、3 番目のノードはそれを 3 番目のノードに送信します。通常、名前ノードは物事をローカルに保持するため、最初のデータノードはおそらく削減タスクを実行している同じマシンです。

レデューサーが出力の書き込みを終了し、データノードがこれを確認すると、レデューサー自体が、定期的なハートビート通信を介して終了したことをジョブトラッカーに通知します。

score 1 · Accepted Answer

HDFS レプリケーションの基本を理解するには、HDFS アーキテクチャドキュメントのレプリカの配置を読んでください。簡単に言えば、NameNode は同じラックを使用して遅延を最小限に抑えようとします。

hadoop - MapReduceジョブを実行するときの一連のイベント

2 に答える 2

Related

Reference