問題タブ [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
707 参照

apache-spark - Mesosphere の DC/OS で Spark Jobserver を実行する方法

Spark、Spark Jobserver、および Mesosphere の DC/OS について、明らかに理解できないことがたくさんあります。しかし、私は Jobserver プロジェクトがとても好きで、DC/OS クラスターもとても好きで、一緒に動かしたいと思っています。

この例のように、Docker コンテナーを marathon ファイルにスローしても機能しません。これはすべて、渡す SPARK_MASTER の URL がわからないためだと思いました (まだわかりませんが、そこにある助けをいただければ幸いです)。しかし、マラソン ファイルからそれを削除しようとしましたが、それでも実行されるはずです。ローカルモードでプロジェクトを実行し、それも機能しません。これにより、このジョブサーバーを DCOS Spark ディスパッチャーに接続する方法がわからないだけでなく、この Docker コンテナーがクラスターでは失敗するのに、ローカル マシンでは失敗する理由がわかりません。引数。

私のログはあまり表示されず、Docker コンテナは stdout で次のように 137 のステータスで終了します。

これは、ローカルで実行すると、log4j を stdout に実行し続ける前の最後のログであり、jobserver が起動していることを通知します。stderr に次のように表示されます。

server_start.sh が spark jobserver docker から実行されており、そのスクリプトが何らかの理由で死んでいることを示唆しているように見えるのはどれですか?

マラソンファイルをこれまで削除しましたが、それでも同じエラーが発生します。

どんな助けでも大歓迎です。

0 投票する
0 に答える
583 参照

scala - job-serverを使ったsparkジョブの並列実行

スタンドアロン モードで Spark クラスターを使用し、Scala ジョブを実行するために Spark ジョブ サーバーを使用しています。docker コンテナーで job-server を起動しました。

次のコードを含むテスト ジョブ jar があります。

このジョブを正常に実行し、ジョブ サーバーを使用して結果を取得できます。しかし、それを並行して実行しようとすると、ジョブ サーバーの次のスタック トレースで失敗するものがあります。

job-server を使用してジョブを並列実行するにはどうすればよいですか?

PS スパーク v 1.6.1 スパーク ジョブ サーバー v. 0.6.2.mesos-0.28.1.spark-1.6.1 scala 2.10

0 投票する
1 に答える
2322 参照

apache-spark - Spark アプリケーションを Web サーバーに接続する

単純化した使用例を説明しようと思います。がある:

  1. 単語を数えるSparkアプリケーション。
  2. フォーム付きの Web ページを提供する Web サーバー。
  3. このフォーム内に単語を入力して送信できるユーザー。

サーバーは単語を受け取り、それを Spark アプリケーションに送信します。Spark アプリケーションは、いくつかのデータに基づいてこの単語を入力として受け取り、この単語は再計算を伴うジョブを開始します。Spark が計算を完了すると、Web ページに結果を表示する Web サーバーに結果が送信されます。

問題は、spark アプリケーションと Web サーバー間の通信をどのように確立できるかということです。

ここでは、spark-jobserver または spark-streaming が役立つと思いますが、それについてはわかりません。

0 投票する
0 に答える
174 参照

apache-spark - ジョブ サーバー経由で Spark ジョブを実行すると Stackoverflow エラーが発生する

スパークジョブサーバーを介して長時間実行されているスパークコンテキストがあります。バッチ ジョブは定期的にトリガーされます。一部のシナリオでは、バッチ ジョブが次のスタック トレースで例外を取得しました。例外がどこで開始されたかを確認するためのスタック トレースに関する手がかりはあまりありません。

ジョブサーバーを再起動して同じ入力で実行すると、ジョブは正常に実行されます。

ログから、コードは以下のメソッドを呼び出す前に正常に実行されました。

これがスタックトレースです。これには、writeSerialData->ordinaryObject->defaultwritefields が繰り返されます。

質問

収集すると再帰呼び出しが発生しますか? 同じ入力でジョブを再実行すると正常に動作します。これをデバッグするアイデアはありますか?

この問題は簡単には再現できません。数日間実行した後に発生します。

0 投票する
1 に答える
149 参照

scala - Spark Job Server 経由で Mlib を実行する

Spark の Web サイトで提供されているオンライン リソースを使用して、サンプル モデルの開発を練習していました。モデルを作成し、Spark-Shell を使用してサンプル データに対して実行することはできましたが、実際に運用環境でモデルを実行するにはどうすればよいでしょうか。Spark Jobサーバー経由ですか?

上記のコードは、spark-shell で実行すると完璧に動作しますが、本番環境でモデルを実際に実行する方法がわかりません。spark jobserver 経由で実行しようとしましたが、エラーが発生しました。

プログラムはそれがベクトル要素であることを期待しているのに対し、文字列値を渡しているためだと確信しています。誰かがこれを達成する方法を教えてくれますか? また、これはデータが本番環境でモデルに渡される方法ですか? それとも他の方法ですか?

0 投票する
0 に答える
175 参照

apache-spark - クラスターと連携するように Spark Job Server を構成する

Spark Job サーバー Docker を使用しています

動作しているように見えますが、ジョブを送信するとき:

ただし、ログによると、ジョブはクラスターではなくローカルの Spark で実行されます。

ジョブをローカル マシンではなくクラスターで実行するには、他にどのような構成が必要ですか?

0 投票する
1 に答える
151 参照

spark-jobserver - ジョブを Snappy Job Server に送信するときにキー/値の構成設定を渡すにはどうすればよいですか?

毎回異なる場所からデータ ファイルをロードするジョブがあります。runJavaJob() API の Config.java パラメータを使用して、同じジョブ JAR を送信し、別の場所を渡すだけにしたいと考えています。

キー/値の構成をsnappy-job.sh Usageに渡す方法がわかりません。

どうすればいいですか?

0 投票する
1 に答える
2314 参照

curl - Apache スパーク レスト API

log4j プロパティ用に持っている spark-submit コマンドを使用して、次のように Spark-submit を呼び出しています。

--driver-java-optionscurl (Apache Spark の Hidden REST API) を介してジョブを送信するにはどうすればよいですか?

私はこれを試しました:

ジョブが正常に送信され、応答が返されましたが、uknownField が 1 つありました:

"unknownFields" : [ "spark.driver.extraJavaOptions" ]

私も次のように試しdriverExtraJavaOptionsました:

しかし、同様の応答を得ました:

どうしてこれなの?spark-submit.scala
を見て、 Spark REST APIを参照しました