1

Google Dataproc で Spark ジョブを実行しようとしています。ただし、通常見られるように、Spark ドライバーの初期化は実行時間のかなりの部分を占めます。JavaSparkContext の同じインスタンスを使用して Google Dataproc で Spark の複数のジョブを実行するための良い方法を知りたいので、spark ドライバーの初期化によってすべてのジョブのパフォーマンスが失われることはありません。現在、私のコードは次のようになっています。

public static void main(String[] args) {

    SparkConf configuration = new SparkConf().setAppName("App");
    final JavaSparkContext context = new JavaSparkContext(configuration);

    // Do stuff

    // Stop connection to Java Spark
    context.stop();
}
4

1 に答える 1