問題タブ [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
349 参照

scala - GC オーバーヘッド制限により単純なスパーク ジョブが失敗する

各マシンに 9 コア / 80G (合計 27 コア / 240G RAM) を備えたローカル マシンにスタンドアロンの Spark (2.1.1) クラスターを作成しました。

1 から x までのすべての数値を合計するサンプル Spark ジョブがあります。これがコードです。

上記のコードを実行すると、数秒後に結果が得られるので、コードをクランチして、1 から 1B (1,000,000,000) までのすべての数値を合計すると、GC のオーバーヘッド制限に達します。

十分なメモリがない場合、スパークはメモリを HDD にスピルする必要があることを読みました。クラスター構成で遊んでみましたが、役に立ちませんでした。

私は開発者ではなく、Scala の知識もありませんが、GC の問題なしでこのコードを実行するための解決策を見つけたいと考えています。

@philantrovert リクエストごとに、spark-submit コマンドを追加しています

さらに、私のspark/confは次のとおりです:

  • スレーブ ファイルには、ノード (マスターを含む) の 3 つの IP アドレスが含まれています。
  • spark-defaults には以下が含まれます。
    • spark.master spark://192.168.1.2:7077
    • spark.driver.memory 10g
  • spark-env.sh には以下が含まれます。
    • SPARK_LOCAL_DIRS= 全ノード間の共有フォルダー
    • SPARK_EXECUTOR_MEMORY=10G
    • SPARK_DRIVER_MEMORY=10G
    • SPARK_WORKER_CORES=1
    • SPARK_WORKER_MEMORY=10G
    • SPARK_WORKER_INSTANCES=8
    • SPARK_WORKER_DIR= 全ノード間の共有フォルダー
    • SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true"

ありがとう

0 投票する
1 に答える
1843 参照

apache-spark - Spark - ローカル スタンドアロン モードは履歴サーバーに書き込みません

Mac で単一のスタンドアロン モードで Spark 履歴サーバーを有効にしようとしています。spark-master サービスを実行しており、ジョブを実行できます。また、localhost で履歴サーバー サービスを実行しています。ブラウザで表示できますが、アプリケーションの記録はありません。何がわからないのか、いくつかの設定を見逃しているとしか思えません。履歴サーバーをローカルのスタンドアロン Spark で動作するように構成する方法を教えてください。

ここに私の設定があります: