私が読んだすべての論文は、実際の mapreduce ジョブが比較的小さなデータ セット サイズで動作する傾向があることを示唆しています (ほとんどはマップのみであり、ほとんどのジョブで KB-16GB で動作する傾向があります)。本番環境で働いている人が、データセットが小さい傾向にある理由と方法について話すことができれば、私はよりよく理解できるでしょう. 小さなデータセット (<128MB) の場合、分割や生成されたマップ タスクの数に何らかの影響があるため、ファイルは断片化または連続する傾向がありますか? また、hadoop で mapreduce をファイルのセクションのみで動作させるとしたら?
どんなポインタでも大歓迎です。