Hadoop ジョブで圧縮ツールとして使用する lzo コーデックをセットアップしています。lzo には、分割可能なファイルを作成するという望ましい機能があることを知っています。しかし、lzo に分割可能なファイルを自動的に作成させる方法が見つかりませんでした。私がこれまでに読んだブログはすべて、ジョブの外部でインデクサーを使用し、出力された lzo ファイルを mapreduce ジョブへの入力として供給することについて言及しています。
ベンチマーク コードを変更したくない Hadoop ベンチマークをいくつか使用しています。Hadoop で lzo 圧縮を使用して、ベンチマークへの影響を確認します。マップ出力を圧縮するためのコーデックとして lzo を使用することを計画していますが、出力が分割可能でない場合、次のフェーズではノード内の圧縮された出力全体を機能させる必要があります。
出力ファイルを分割可能にするように lzo に指示する Hadoop 構成オプションはありますか?