によるHadoop - The Definitive Guide
FileInputFormats が定義する論理レコードは、通常、HDFS ブロックにうまく収まりません。たとえば、TextInputFormat の論理レコードは行であり、HDFS の境界を頻繁に越えます。これは、プログラムの機能には関係ありません。たとえば、行が欠落したり壊れたりすることはありませんが、知っておく価値はあります。入力データ) は、いくつかのリモート読み取りを実行します。これにより発生するわずかなオーバーヘッドは、通常は重要ではありません。
レコード行が 2 つのブロック (b1 と b2) に分割されているとします。最初のブロック (b1) を処理するマッパーは、最後の行に EOL セパレータがないことに気付き、次のデータ ブロック (b2) から残りの行をフェッチします。
2 番目のブロック (b2) を処理するマッパーは、最初のレコードが不完全であり、ブロック (b2) の 2 番目のレコードから処理を開始する必要があることをどのように判断しますか?