1

テキストベースの圧縮ログファイルのディレクトリがあり、それぞれに多くのレコードが含まれています。古いバージョンのHadoopでは、ログファイルを解凍してそこから続行MultiFileInputFormatするカスタムを返すように拡張していました。RecordReaderしかし、私はHadoop0.20.2を使用しようとしています。

Hadoop 0.20.2のドキュメントでは、MultiFileInputFormatが非推奨になっていることに気づきましたCombineFileInputFormat。ただし、拡張するCombineFileInputFormatには、非推奨のクラスJobConfとを使用する必要がありInputSplitます。の最新の同等物MultiFileInputFormat、またはファイルのディレクトリからレコードを取得する最新の方法は何ですか?

4

1 に答える 1

2

MultiFileInputFormatに相当する最新の方法、またはファイルのディレクトリからレコードを取得する最新の方法は何ですか?

oahmapred。*には古いAPIがあり、oahmapreduce。*は新しいAPIです。一部の入力/出力形式は、新しいAPIに移行されていません。MultiFileInputFormat / CombineFileInputFormatは、20.2では新しいAPIに移行されていません。不足しているフォーマットを移行するためにJIRAが開かれたことを覚えていますが、Jira#を覚えていません。

ただし、CombineFileInputFormatを拡張するには、非推奨のクラスJobConfとInputSplitを使用する必要があります。

今のところ、古いAPIを使用しても問題ないはずです。Apacheフォーラムでこの応答を確認してください。古いAPIのサポートを停止するための正確な計画はわかりません。新しいAPIを使い始めた人はあまりいないと思いますので、当面はサポートされると思います。

于 2012-06-29T04:48:02.623 に答える