ステップ1-処理するデータの量に基づいて可変時間かかるHadoopストリーミングジョブがありますステップ2-ジョブが完了したら、すべてのデータダンプをmongodbにインポートし、そこからフラットcsvファイルを作成する必要があります
質問
Hadoopストリーミングを使用してステップ2をステップ1に接着し、ステップ2を手動で実行しないようにする方法はありますか?
ステップ1-処理するデータの量に基づいて可変時間かかるHadoopストリーミングジョブがありますステップ2-ジョブが完了したら、すべてのデータダンプをmongodbにインポートし、そこからフラットcsvファイルを作成する必要があります
質問
Hadoopストリーミングを使用してステップ2をステップ1に接着し、ステップ2を手動で実行しないようにする方法はありますか?
https://github.com/Yelp/mrjobまたはhttps://github.com/klbostee/dumboのようなものを使用することをお勧めします。特にmrjobとあなたの問題のためにhttp://packages.python.org/mrjob/job.html#writing-multi-step-jobs