次のシナリオを検討してください。
それぞれ6 MBの4つのファイルがあります。HDFS
ブロックサイズは 64 MB です。
1block
は、これらすべてのファイルを保持します。余分なスペースがあります。新しいファイルが追加された場合、ここに収容されます
によってジョブのinput splits
が計算される場合 (通常は、各分割を処理のためにメモリにロードできるため、シーク時間が短縮されます。)Map-reduce
Input format
split size
HDFS block size
ここで行われる入力分割の数:
4つのファイルすべてがaに含まれているため、1つ
block
ですか?それともファイルごとに1つの入力分割ですか?
これはどのように決定されますか?すべてのファイルを単一の入力分割として処理したい場合はどうすればよいですか?