1

2つのマッパーとそれに続く1つのレデューサーをチェーンしました。中間出力(チェーン内の各マッパーのo / p)をHDFSに書き込むことは可能ですか?それぞれにOutputPathを設定してみましたが、うまくいかないようです。さて、それがまったくできるかどうかはわかりません。助言がありますか?

4

1 に答える 1

3

結果は常にSequenceFileとしてHDFSに書き込まれます。ただし、レデューサーを使用している場合、これらのユーザーは単なる一時ファイルであり、ジョブの完了後に削除されます。マップ出力が必要な場合は、2つのジョブをチェーンする必要があります。レデューサーのない1つのジョブと、レデューサーのあるジョブ。または、マップタスクからhdfsファイルを作成するスキルが少しある場合は、これも可能です。
最初のアプローチはコード化されていませんが、2番目のアプローチはコード化されていません。それはあなた次第です!

于 2011-03-23T18:49:14.253 に答える