REST API 呼び出しを使用してエンドポイントからデータを取り込み、そのデータを HDFS に保存する予定です。REST 呼び出しは定期的に (毎日または場合によっては 1 時間ごとに) 行われます。
私はすでに Flume を使用して Twitter の取り込みを行っていますが、Flume を使用することは私の現在のユースケースには適さないと思います。なぜなら、私は Twitter でこのような継続的なデータ ファイアホースを使用しておらず、個別の定期的な時間制限のある呼び出しを使用しているためです。
私が今考えているアイデアは、REST API 呼び出しを処理して HDFS に保存するカスタム Java を使用し、その Java jar で Oozie コーディネーターを使用することです。
設計と、このユースケースに使用する Hadoop ベースのコンポーネントについて、提案/代替案 (現在考えているものよりも簡単な場合) を聞きたいです。私が Flume に固執できると思われる場合は、その方法も教えてください。