0

ステップ1-処理するデータの量に基づいて可変時間かかるHadoopストリーミングジョブがありますステップ2-ジョブが完了したら、すべてのデータダンプをmongodbにインポートし、そこからフラットcsvファイルを作成する必要があります

質問
Hadoopストリーミングを使用してステップ2をステップ1に接着し、ステップ2を手動で実行しないようにする方法はありますか?

4

1 に答える 1

0

https://github.com/Yelp/mrjobまたはhttps://github.com/klbostee/dumboのようなものを使用することをお勧めします。特にmrjobとあなたの問題のためにhttp://packages.python.org/mrjob/job.html#writing-multi-step-jobs

于 2012-04-03T14:22:20.537 に答える