Oozie を使用して既存の Hadoop ジョブを実行しようとしています (AWS から移行しています)。
AWS Mapreduce では、プログラムでジョブを送信するため、ジョブが送信される前にコードがプログラムで入力を見つけます。
私の入力は、たまたま別のジョブの最後の成功した実行です。最後の成功した実行を見つけるには、HDFS フォルダーをスキャンし、フォルダーの命名規則に埋め込まれたタイムスタンプで並べ替え、_SUCCESS ファイルを含む最新のフォルダーを見つける必要があります。
これを行う方法は、私の初心者の理解を超えています。
Oozie で何を設定する必要があるかを誰かが簡単に説明してくれますか?