いくつかのログ ファイルを lzo 設定 7 で圧縮し、デフォルトの圧縮で gzip で圧縮しました。結果は次のとおりです。
MapReduce ジョブ:
- 1GB .gz ファイル - 340 秒
- 1 GB の .lzo ファイル (インデックスなし) - 410 秒
- 1 GB の .lzo ファイルのインデックス作成 - 380 秒
MapReduce ジョブは、通常の TextInputFormat クラスの代わりに、Hadoop-LZO ライブラリの LzoTextInputFormat クラスを利用するだけです。それが唯一の違いです。
37 のマップ タスクが実行され、ジョブが分割されて .index ファイルが使用されていることがわかりますが、パフォーマンスには多くの課題が残されています。何か案は?