現在、Dataproc の Java クライアント API を使用して、Spring REST サービス経由で Spark ジョブをトリガーしています。spark ジョブの基本は次のとおりです。
- スパークの初期化
- プロセスデータ
- 結果を GS バケット .json ファイルに保存する
データを保存する理由は、Spark ジョブが完了して結果を JSON ファイルに保存したときに、保存された結果を REST サービスから読み取ることができるようにするためです。ただし、Dataproc の Java クライアント API はジョブをトリガーするだけで、ジョブが完了するまで待機しません。では、spark ジョブが完了するのを待つ最善の方法は何でしょうか? 私は Object.wait(int time) を使用したくありません。スパーク ジョブごとに実行時間が異なるためです。