階層的な MapReduce ジョブを定義できるかどうか疑問に思っていました。言い換えれば、マッパーフェーズで別の MapReduce ジョブを呼び出す map-reduce ジョブが必要です。出来ますか?それを行う方法について何か推奨事項はありますか?
プログラムに追加レベルの並列処理/分散を持たせるためにそれを行いたいです。ありがとう、アリク。
階層的な MapReduce ジョブを定義できるかどうか疑問に思っていました。言い換えれば、マッパーフェーズで別の MapReduce ジョブを呼び出す map-reduce ジョブが必要です。出来ますか?それを行う方法について何か推奨事項はありますか?
プログラムに追加レベルの並列処理/分散を持たせるためにそれを行いたいです。ありがとう、アリク。
Hadoop 決定版ガイドブックには、MapReduce ジョブチェインに関するサンプル コードや詳細な説明を含む多くのレシピが含まれています。特に、「高度な API の使用法」またはそれに近いものと呼ばれる章。
TableInputFormat
個人的には、複雑な map-reduce ジョブを、いくつかの HBase テーブルをソースとして手作りの拡張機能で置き換えることに成功しました。その結果、ソース データを最小限の削減で結合する入力形式が得られたため、ジョブは単一のマッパー ステップに変換されました。ですから、この方向にも目を向けることをお勧めします。
Cascadingを試す必要があります。複数のステップでかなり複雑なジョブを定義できます。