次のシナリオを検討してください。
それぞれ6 MBの4つのファイルがあります。HDFSブロックサイズは 64 MB です。
1blockは、これらすべてのファイルを保持します。余分なスペースがあります。新しいファイルが追加された場合、ここに収容されます
によってジョブのinput splitsが計算される場合 (通常は、各分割を処理のためにメモリにロードできるため、シーク時間が短縮されます。)Map-reduceInput formatsplit sizeHDFS block size
ここで行われる入力分割の数:
4つのファイルすべてがaに含まれているため、1つ
blockですか?それともファイルごとに1つの入力分割ですか?
これはどのように決定されますか?すべてのファイルを単一の入力分割として処理したい場合はどうすればよいですか?