問題タブ [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
479 参照

python - クライアントモードで実行しているときにスパークログを送信する方法は?

監視に使用するモードpysparkでクラスター上でアプリケーションを実行するために使用しています。clientstandalone

私がしたいのは、ログを見ることだけです。

私は2つのことを試しました:

1) spark-defaults.confSPARK_HOME の構成ファイル ( ) に移動しました。

2)私のpythonスクリプトで次のように設定します:

これらのどちらも、フォルダーにログを生成していないようです。他に試せることはありますか?

ありがとうございました。これはspark 1.3です

0 投票する
1 に答える
1709 参照

java - Spark アプリケーションの出力が見つかりません

正常に起動できるクラスターがあります。少なくとも、この情報が表示される Web UI にはそれが表示されます。

この方法で使用する場合、submit コマンドを使用してアプリケーションを実行しました

次のメッセージが表示されます。

REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 15:55:16 INFO RestSubmissionClient: spark://Name25:7077 でアプリケーションを起動するリクエストを送信しています。16/08/31 15:55:27 WARN RestSubmissionClient: サーバー spark://Name25:7077 に接続できません。警告: マスター エンドポイント spark://Name25:7077 は REST サーバーではありませんでした。代わりに、従来の送信ゲートウェイにフォールバックします。16/08/31 15:55:28 WARN NativeCodeLoader: お使いのプラットフォームのネイティブ Hadoop ライブラリを読み込めません... 該当する場合は組み込み Java クラスを使用します

そして、私がこのようにそれを使用する場合:

このメッセージが表示されます

REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 でアプリケーションを起動するリクエストを送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: 送信が driver-20160831165906-0004 として正常に作成されました。送信状態のポーリング... 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 の送信 driver-20160831165906-0004 のステータスの要求を送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバー driver-20160831165906-0004 の状態は現在実行中です。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバーはワーカー worker-20160831143117-10.0.10.48-38917 (10.0.10.48:38917) で実行されています。16/08/31 16:59:06 INFO RestSubmissionClient:

成功したと思いますが、コードで使用したため、アプリケーションには指定されたパス (/home/result) への 3 つの出力が必要です。

質問 1 : 「spark://Name25:7077」ではなく「spark://Name25:6066」を使用するように求められるのはなぜですか? Spark の Web サイトによると、7077 を使用しているためです。

質問 2: アプリケーションの送信と完了が正常に完了したことを示している場合、3 つの出力フォルダーが見つからないのはなぜですか?

0 投票する
0 に答える
108 参照

apache-spark - Spark スタンドアローンでの Spark-submit - すべてのメモリがドライバーに渡されます

Spark スタンドアロン クラスターをセットアップしました。ここで、spark-submit を使用してジョブを送信できます。

spark-submit \ --class blah.blah.MyClass \ --master spark://myaddress:6066 \ --executor-memory 8G \ --deploy-mode cluster \ --total-executor-cores 12 \ /path/to/jar/myjar.jar

問題は、複数のジョブを同時に送信したときです。たとえば、一度に 20 以上のジョブを送信すると、最初のいくつかが正常に終了しました。他のすべては、リソースを待って立ち往生しています。使用可能なすべてのメモリがドライバーに割り当てられていることに気付きました。そのため、ドライバー セクションではすべてが実行されていますが、実行中のアプリケーション セクションではすべてが待機状態になっています。

最初に SUBMITTED ドライバーではなく WAITING エグゼキューターにメモリを割り当てるように spark スタンドアローンに指示するにはどうすればよいですか?

ありがとうございました

以下は私の spark-defaults.conf の抜粋です spark.master spark://address:7077 spark.eventLog.enabled true spark.eventLog.dir /path/tmp/sparkEventLog spark.driver.memory 5g spark.local.dir /path/tmp spark.ui.port xxx

0 投票する
2 に答える
1982 参照

apache-spark - Spark の各ワーカー ノードで実行されるエグゼキュータ プロセスの数は?

Spark のワーカー ノードごとにいくつのエグゼキュータが起動されますか? その背後にある数学を知ることができますか?

たとえば、6 つのワーカー ノードと 1 つのマスターがあり、spark-submit を介してジョブを送信すると、ジョブに対して起動されるエグゼキューターの最大数はいくつになりますか?