テキストベースの圧縮ログファイルのディレクトリがあり、それぞれに多くのレコードが含まれています。古いバージョンのHadoopでは、ログファイルを解凍してそこから続行MultiFileInputFormatするカスタムを返すように拡張していました。RecordReaderしかし、私はHadoop0.20.2を使用しようとしています。
Hadoop 0.20.2のドキュメントでは、MultiFileInputFormatが非推奨になっていることに気づきましたCombineFileInputFormat。ただし、拡張するCombineFileInputFormatには、非推奨のクラスJobConfとを使用する必要がありInputSplitます。の最新の同等物MultiFileInputFormat、またはファイルのディレクトリからレコードを取得する最新の方法は何ですか?