4

毎回マッパーを使用せずにデータを複数回ソートする方法をトラブルシューティングしています。

Id like to setup: マッパー 1 --> レデューサー 1 ---> レデューサー 2 ---> レデューサー 3

レデューサー 1 の出力 (キー、データ) を作成し、それをレデューサー 2 に直接送りたい...これは可能ですか?

トラブルシューティングでジョブをチェーンできることを知りましたが、これには各ステップにマッパーが必要ですか?

マッパーなしで実行しようとすると、エラーで終了します。レデューサー1から必要に応じて出力できる場合、各ステップでマッパーを実行するのは時間/リソースの無駄になるようです。

考え?

4

1 に答える 1

1

つまり、Java を使用している場合は、ChainReducer と ChainMapper が必要です。これらのクラスを使用すると、任意の数のレデューサーまたはマッパーを任意の順序でチェーンに追加できます。

本「Hadoop in Action」では、この手順について第 5 章で説明しています。

于 2012-09-26T12:34:26.397 に答える