Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Hadoop 決定版ガイド 言います:
When you have Minimum split size 1, Maximum split size Long.MAX_VALUE, Block size 64MB then the Split size is 64MB.
TextInputFormat の論理レコードは行です。各行の長さが異なるため、正確に 64MB のサイズを分割するにはどうすればよいでしょうか?
HDFS ブロックは一連のバイトです。彼らは線やその他の構造を認識していません。したがって、行の途中で終わる (つまり、最後の行全体を含まない) 1 つのブロック (もちろんサイズは 64MB) だけで構成される分割があるかもしれません。TextInputFormat でそれを読み取る場合、最後の行全体も取得できるように、次のブロックからもいくつかのバイトを読み取るように注意します。