0

Oozie を使用して既存の Hadoop ジョブを実行しようとしています (AWS から移行しています)。

AWS Mapreduce では、プログラムでジョブを送信するため、ジョブが送信される前にコードがプログラムで入力を見つけます。

私の入力は、たまたま別のジョブの最後の成功した実行です。最後の成功した実行を見つけるには、HDFS フォルダーをスキャンし、フォルダーの命名規則に埋め込まれたタイムスタンプで並べ替え、_SUCCESS ファイルを含む最新のフォルダーを見つける必要があります。

これを行う方法は、私の初心者の理解を超えています。

Oozie で何を設定する必要があるかを誰かが簡単に説明してくれますか?

4

1 に答える 1