問題タブ [apache-spark-standalone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - クライアントモードで実行しているときにスパークログを送信する方法は?
監視に使用するモードpyspark
でクラスター上でアプリケーションを実行するために使用しています。client
standalone
私がしたいのは、ログを見ることだけです。
私は2つのことを試しました:
1) spark-defaults.conf
SPARK_HOME の構成ファイル ( ) に移動しました。
2)私のpythonスクリプトで次のように設定します:
これらのどちらも、フォルダーにログを生成していないようです。他に試せることはありますか?
ありがとうございました。これはspark 1.3です
java - Spark アプリケーションの出力が見つかりません
正常に起動できるクラスターがあります。少なくとも、この情報が表示される Web UI にはそれが表示されます。
この方法で使用する場合、submit コマンドを使用してアプリケーションを実行しました
次のメッセージが表示されます。
REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 15:55:16 INFO RestSubmissionClient: spark://Name25:7077 でアプリケーションを起動するリクエストを送信しています。16/08/31 15:55:27 WARN RestSubmissionClient: サーバー spark://Name25:7077 に接続できません。警告: マスター エンドポイント spark://Name25:7077 は REST サーバーではありませんでした。代わりに、従来の送信ゲートウェイにフォールバックします。16/08/31 15:55:28 WARN NativeCodeLoader: お使いのプラットフォームのネイティブ Hadoop ライブラリを読み込めません... 該当する場合は組み込み Java クラスを使用します
そして、私がこのようにそれを使用する場合:
このメッセージが表示されます
REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 でアプリケーションを起動するリクエストを送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: 送信が driver-20160831165906-0004 として正常に作成されました。送信状態のポーリング... 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 の送信 driver-20160831165906-0004 のステータスの要求を送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバー driver-20160831165906-0004 の状態は現在実行中です。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバーはワーカー worker-20160831143117-10.0.10.48-38917 (10.0.10.48:38917) で実行されています。16/08/31 16:59:06 INFO RestSubmissionClient:
成功したと思いますが、コードで使用したため、アプリケーションには指定されたパス (/home/result) への 3 つの出力が必要です。
質問 1 : 「spark://Name25:7077」ではなく「spark://Name25:6066」を使用するように求められるのはなぜですか? Spark の Web サイトによると、7077 を使用しているためです。
質問 2: アプリケーションの送信と完了が正常に完了したことを示している場合、3 つの出力フォルダーが見つからないのはなぜですか?
apache-spark - Spark スタンドアローンでの Spark-submit - すべてのメモリがドライバーに渡されます
Spark スタンドアロン クラスターをセットアップしました。ここで、spark-submit を使用してジョブを送信できます。
spark-submit \
--class blah.blah.MyClass \
--master spark://myaddress:6066 \
--executor-memory 8G \
--deploy-mode cluster \
--total-executor-cores 12 \
/path/to/jar/myjar.jar
問題は、複数のジョブを同時に送信したときです。たとえば、一度に 20 以上のジョブを送信すると、最初のいくつかが正常に終了しました。他のすべては、リソースを待って立ち往生しています。使用可能なすべてのメモリがドライバーに割り当てられていることに気付きました。そのため、ドライバー セクションではすべてが実行されていますが、実行中のアプリケーション セクションではすべてが待機状態になっています。
最初に SUBMITTED ドライバーではなく WAITING エグゼキューターにメモリを割り当てるように spark スタンドアローンに指示するにはどうすればよいですか?
ありがとうございました
以下は私の spark-defaults.conf の抜粋です
spark.master spark://address:7077
spark.eventLog.enabled true
spark.eventLog.dir /path/tmp/sparkEventLog
spark.driver.memory 5g
spark.local.dir /path/tmp
spark.ui.port xxx
apache-spark - Spark の各ワーカー ノードで実行されるエグゼキュータ プロセスの数は?
Spark のワーカー ノードごとにいくつのエグゼキュータが起動されますか? その背後にある数学を知ることができますか?
たとえば、6 つのワーカー ノードと 1 つのマスターがあり、spark-submit を介してジョブを送信すると、ジョブに対して起動されるエグゼキューターの最大数はいくつになりますか?