テキストベースの圧縮ログファイルのディレクトリがあり、それぞれに多くのレコードが含まれています。古いバージョンのHadoopでは、ログファイルを解凍してそこから続行MultiFileInputFormat
するカスタムを返すように拡張していました。RecordReader
しかし、私はHadoop0.20.2を使用しようとしています。
Hadoop 0.20.2のドキュメントでは、MultiFileInputFormat
が非推奨になっていることに気づきましたCombineFileInputFormat
。ただし、拡張するCombineFileInputFormat
には、非推奨のクラスJobConf
とを使用する必要がありInputSplit
ます。の最新の同等物MultiFileInputFormat
、またはファイルのディレクトリからレコードを取得する最新の方法は何ですか?