1

Hadoop 決定版ガイド 言います:

When you have Minimum split size 1, Maximum split size Long.MAX_VALUE, Block 
size 64MB then the Split size is 64MB.

TextInputFormat の論理レコードは行です。各行の長さが異なるため、正確に 64MB のサイズを分割するにはどうすればよいでしょうか?

4

2 に答える 2

3

HDFS ブロックは一連のバイトです。彼らは線やその他の構造を認識していません。したがって、行の途中で終わる (つまり、最後の行全体を含まない) 1 つのブロック (もちろんサイズは 64MB) だけで構成される分割があるかもしれません。TextInputFormat でそれを読み取る場合、最後の行全体も取得できるように、次のブロックからもいくつかのバイトを読み取るように注意します。

于 2012-07-08T00:24:52.337 に答える