REST サービスを使用して、Dataproc API クライアントを使用して Spark ジョブをトリガーしようとしています。ただし、dataproc クラスタ内の各ジョブは、Spark ドライバの初期化とアプリケーションの送信に 10~15 秒かかります。gs バケット内の JAR ファイルからトリガーされる Spark Java ジョブの初期化時間をなくす効果的な方法があるかどうか疑問に思っています。私が考えているいくつかの解決策は次のとおりです。
- すべての Spark ジョブに使用できる JavaSparkContext の単一インスタンスをプールする
- 単一のジョブを開始し、単一のジョブで Spark ベースの処理を実行する
より効果的な方法はありますか?Google Dataproc で上記の方法をどのように実装しますか?