回避策の一部として、目的の効果を得るために順番に実行する必要がある (1 つではなく) 2 つの mapreduce ジョブを使用したいと考えました。
各ジョブの map 関数は、各キーと値のペアを処理せずに発行するだけです。各ジョブのリデュース関数は、異なる種類の処理を行うため異なります。
私は oozie に出くわしましたが、結果のジョブの入力ストリームに直接書き込むようです (そうではありませんか?) - 中間データが大きいため、これは素晴らしいことです (I/O 操作がボトルネックになります)。
Oozie (ワークフロー内の 2 つの mr ジョブ) でこれを達成するにはどうすればよいですか?
以下のリソースを確認しましたが、ワークフローとして単一のジョブを実行するだけです: https://cwiki.apache.org/confluence/display/OOZIE/Map+Reduce+Cookbook
助けていただければ幸いです。
乾杯