hadoop - MapReduce: 2 つのブロックが異なるノードに分散している場合、入力分割はどのように行われますか?

Question

私は次のwikiを読みましたが、まだ1つのことを明確にすることができません.

https://wiki.apache.org/hadoop/HadoopMapReduce

たとえば、2 つの HDFS ブロックに分割された大きなファイルがあり、ブロックが 2 つの異なるマシンに物理的に保存されているとします。両方のブロックをローカルにホストするノードがクラスター内にないことを考慮してください。私が理解したように、TextInputFormat HDFS ブロックサイズは通常、分割サイズと同じです。2 つの分割があるため、ブロックをローカルに保持する 2 つの別々のマシンで 2 つのマップインスタンスが生成されます。ここで、HDFS テキストファイルが行の途中で壊れてブロックを形成したとします。Hadoop はブロック 2 を 2 番目のマシンから最初のマシンにコピーして、2 番目のブロックから最初の行 (壊れた半分) を提供し、最初のブロックの最後の壊れた行を完成させることができますか?

score 4 · Accepted Answer

ここで、HDFS テキストファイルが行の途中で壊れてブロックを形成したとします。Hadoop はブロック 2 を 2 番目のマシンから最初のマシンにコピーして、2 番目のブロックから最初の行 (壊れた半分) を提供し、最初のブロックの最後の壊れた行を完成させることができますか?

Hadoop はマップタスクを実行しているノードにブロックをコピーしません。ブロックはデータノードからタスクノードにストリーミングされます (4kb などの適切な転送ブロックサイズで)。したがって、あなたが与える例では、最初のブロックを処理したマップタスクは最初のブロック全体を読み取り、次に行末文字が見つかるまで2番目のブロックをストリーム読み取りします。したがって、おそらく「ほとんど」ローカルです。

2 番目のブロックがどれだけ読み取られるかは、行の長さによって異なります。3 つのブロックに分割されたファイルが 3 つのマップタスクによって処理され、2 番目のマップタスクは基本的にレコードを処理しない可能性があります (ただし、行がブロック 1 で始まり、ブロック 3 で終わる場合、ブロック 2 と 3 の一部)。

これが理にかなっていることを願っています

hadoop - MapReduce: 2 つのブロックが異なるノードに分散している場合、入力分割はどのように行われますか?

1 に答える 1

Related

Reference