hadoop - 複数のジョブに同じ JavaSparkContext を使用して、spark ドライバーの初期化に時間を使用しないようにする

翻译自：https://stackoverflow.com/questions/35713436 2016-03-01T02:09:24.660

829 次

Google Dataproc で Spark ジョブを実行しようとしています。ただし、通常見られるように、Spark ドライバーの初期化は実行時間のかなりの部分を占めます。JavaSparkContext の同じインスタンスを使用して Google Dataproc で Spark の複数のジョブを実行するための良い方法を知りたいので、spark ドライバーの初期化によってすべてのジョブのパフォーマンスが失われることはありません。現在、私のコードは次のようになっています。

public static void main(String[] args) {

    SparkConf configuration = new SparkConf().setAppName("App");
    final JavaSparkContext context = new JavaSparkContext(configuration);

    // Do stuff

    // Stop connection to Java Spark
    context.stop();
}

hadoop - 複数のジョブに同じ JavaSparkContext を使用して、spark ドライバーの初期化に時間を使用しないようにする

1 に答える 1

Related

Reference