hadoop - Oozie/Hadoop: 入力データセットが単なる静的ファイルよりも複雑な場合、どうすれば入力データセットを定義できますか?

翻译自：https://stackoverflow.com/questions/16186940 2013-04-24T08:21:08.917

329 次

Oozie を使用して既存の Hadoop ジョブを実行しようとしています (AWS から移行しています)。

AWS Mapreduce では、プログラムでジョブを送信するため、ジョブが送信される前にコードがプログラムで入力を見つけます。

私の入力は、たまたま別のジョブの最後の成功した実行です。最後の成功した実行を見つけるには、HDFS フォルダーをスキャンし、フォルダーの命名規則に埋め込まれたタイムスタンプで並べ替え、_SUCCESS ファイルを含む最新のフォルダーを見つける必要があります。

これを行う方法は、私の初心者の理解を超えています。

Oozie で何を設定する必要があるかを誰かが簡単に説明してくれますか?

1 に答える 1