java - Spark アプリケーションの出力が見つかりません

Question

正常に起動できるクラスターがあります。少なくとも、この情報が表示される Web UI にはそれが表示されます。

URL: spark://Name25:7077
REST URL: spark://Name25:6066 (cluster mode)
Alive Workers: 10
Cores in use: 192 Total, 0 Used
Memory in use: 364.0 GB Total, 0.0 B Used
Applications: 0 Running, 5 Completed
Drivers: 0 Running, 5 Completed
Status: ALIVE

この方法で使用する場合、submit コマンドを使用してアプリケーションを実行しました

./bin/spark-submit --class myapp.Main --master spark://Name25:7077 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home/etud500.csv  /home/

次のメッセージが表示されます。

REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 15:55:16 INFO RestSubmissionClient: spark://Name25:7077 でアプリケーションを起動するリクエストを送信しています。16/08/31 15:55:27 WARN RestSubmissionClient: サーバー spark://Name25:7077 に接続できません。警告: マスターエンドポイント spark://Name25:7077 は REST サーバーではありませんでした。代わりに、従来の送信ゲートウェイにフォールバックします。16/08/31 15:55:28 WARN NativeCodeLoader: お使いのプラットフォームのネイティブ Hadoop ライブラリを読み込めません... 該当する場合は組み込み Java クラスを使用します

そして、私がこのようにそれを使用する場合:

./bin/spark-submit --class myapp.Main --master spark://Name25:6066 --deploy-mode cluster /home/lookupjar/myapp-0.0.1-SNAPSHOT.jar /home//etud500.csv  /home/result

このメッセージが表示されます

REST アプリケーション送信プロトコルを使用して Spark を実行します。Spark のデフォルトの log4j プロファイルの使用: org/apache/spark/log4j-defaults.properties 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 でアプリケーションを起動するリクエストを送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: 送信が driver-20160831165906-0004 として正常に作成されました。送信状態のポーリング... 16/08/31 16:59:06 INFO RestSubmissionClient: spark://Name25:6066 の送信 driver-20160831165906-0004 のステータスの要求を送信しています。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバー driver-20160831165906-0004 の状態は現在実行中です。16/08/31 16:59:06 INFO RestSubmissionClient: ドライバーはワーカー worker-20160831143117-10.0.10.48-38917 (10.0.10.48:38917) で実行されています。16/08/31 16:59:06 INFO RestSubmissionClient:

成功したと思いますが、コードで使用したため、アプリケーションには指定されたパス (/home/result) への 3 つの出力が必要です。

path =args [1];
rdd1.saveAsTextFile(path+"/rdd1");
rdd2.saveAsTextFile(path+"/rdd2");
rdd3.saveAsTextFile(path+"/rdd3");

質問 1 : 「spark://Name25:7077」ではなく「spark://Name25:6066」を使用するように求められるのはなぜですか? Spark の Web サイトによると、7077 を使用しているためです。

質問 2: アプリケーションの送信と完了が正常に完了したことを示している場合、3 つの出力フォルダーが見つからないのはなぜですか?

score 0 · Accepted Answer

6066 を使用して送信しても、ジョブが正常に完了したことを示すわけではありません。リクエストを送信するだけで、ジョブはバックグラウンドで実行されています。ジョブの完了ステータスについては、spark UI で確認する必要があります。

ジョブが完了し、ジョブが出力ファイルを生成した場合は、次を使用してファイルを確認できます。

hadoop dfs -ls <path>/rdd1

java - Spark アプリケーションの出力が見つかりません

1 に答える 1

Related

Reference