問題タブ [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Mesosphere の DC/OS で Spark Jobserver を実行する方法
Spark、Spark Jobserver、および Mesosphere の DC/OS について、明らかに理解できないことがたくさんあります。しかし、私は Jobserver プロジェクトがとても好きで、DC/OS クラスターもとても好きで、一緒に動かしたいと思っています。
この例のように、Docker コンテナーを marathon ファイルにスローしても機能しません。これはすべて、渡す SPARK_MASTER の URL がわからないためだと思いました (まだわかりませんが、そこにある助けをいただければ幸いです)。しかし、マラソン ファイルからそれを削除しようとしましたが、それでも実行されるはずです。ローカルモードでプロジェクトを実行し、それも機能しません。これにより、このジョブサーバーを DCOS Spark ディスパッチャーに接続する方法がわからないだけでなく、この Docker コンテナーがクラスターでは失敗するのに、ローカル マシンでは失敗する理由がわかりません。引数。
私のログはあまり表示されず、Docker コンテナは stdout で次のように 137 のステータスで終了します。
これは、ローカルで実行すると、log4j を stdout に実行し続ける前の最後のログであり、jobserver が起動していることを通知します。stderr に次のように表示されます。
server_start.sh が spark jobserver docker から実行されており、そのスクリプトが何らかの理由で死んでいることを示唆しているように見えるのはどれですか?
マラソンファイルをこれまで削除しましたが、それでも同じエラーが発生します。
どんな助けでも大歓迎です。
scala - job-serverを使ったsparkジョブの並列実行
スタンドアロン モードで Spark クラスターを使用し、Scala ジョブを実行するために Spark ジョブ サーバーを使用しています。docker コンテナーで job-server を起動しました。
次のコードを含むテスト ジョブ jar があります。
このジョブを正常に実行し、ジョブ サーバーを使用して結果を取得できます。しかし、それを並行して実行しようとすると、ジョブ サーバーの次のスタック トレースで失敗するものがあります。
job-server を使用してジョブを並列実行するにはどうすればよいですか?
PS スパーク v 1.6.1 スパーク ジョブ サーバー v. 0.6.2.mesos-0.28.1.spark-1.6.1 scala 2.10
apache-spark - Spark アプリケーションを Web サーバーに接続する
単純化した使用例を説明しようと思います。がある:
- 単語を数えるSparkアプリケーション。
- フォーム付きの Web ページを提供する Web サーバー。
- このフォーム内に単語を入力して送信できるユーザー。
サーバーは単語を受け取り、それを Spark アプリケーションに送信します。Spark アプリケーションは、いくつかのデータに基づいてこの単語を入力として受け取り、この単語は再計算を伴うジョブを開始します。Spark が計算を完了すると、Web ページに結果を表示する Web サーバーに結果が送信されます。
問題は、spark アプリケーションと Web サーバー間の通信をどのように確立できるかということです。
ここでは、spark-jobserver または spark-streaming が役立つと思いますが、それについてはわかりません。
apache-spark - ジョブ サーバー経由で Spark ジョブを実行すると Stackoverflow エラーが発生する
スパークジョブサーバーを介して長時間実行されているスパークコンテキストがあります。バッチ ジョブは定期的にトリガーされます。一部のシナリオでは、バッチ ジョブが次のスタック トレースで例外を取得しました。例外がどこで開始されたかを確認するためのスタック トレースに関する手がかりはあまりありません。
ジョブサーバーを再起動して同じ入力で実行すると、ジョブは正常に実行されます。
ログから、コードは以下のメソッドを呼び出す前に正常に実行されました。
これがスタックトレースです。これには、writeSerialData->ordinaryObject->defaultwritefields が繰り返されます。
質問
収集すると再帰呼び出しが発生しますか? 同じ入力でジョブを再実行すると正常に動作します。これをデバッグするアイデアはありますか?
この問題は簡単には再現できません。数日間実行した後に発生します。
scala - Spark Job Server 経由で Mlib を実行する
Spark の Web サイトで提供されているオンライン リソースを使用して、サンプル モデルの開発を練習していました。モデルを作成し、Spark-Shell を使用してサンプル データに対して実行することはできましたが、実際に運用環境でモデルを実行するにはどうすればよいでしょうか。Spark Jobサーバー経由ですか?
上記のコードは、spark-shell で実行すると完璧に動作しますが、本番環境でモデルを実際に実行する方法がわかりません。spark jobserver 経由で実行しようとしましたが、エラーが発生しました。
プログラムはそれがベクトル要素であることを期待しているのに対し、文字列値を渡しているためだと確信しています。誰かがこれを達成する方法を教えてくれますか? また、これはデータが本番環境でモデルに渡される方法ですか? それとも他の方法ですか?
apache-spark - クラスターと連携するように Spark Job Server を構成する
Spark Job サーバー Docker を使用しています
動作しているように見えますが、ジョブを送信するとき:
ただし、ログによると、ジョブはクラスターではなくローカルの Spark で実行されます。
ジョブをローカル マシンではなくクラスターで実行するには、他にどのような構成が必要ですか?
spark-jobserver - ジョブを Snappy Job Server に送信するときにキー/値の構成設定を渡すにはどうすればよいですか?
毎回異なる場所からデータ ファイルをロードするジョブがあります。runJavaJob() API の Config.java パラメータを使用して、同じジョブ JAR を送信し、別の場所を渡すだけにしたいと考えています。
キー/値の構成をsnappy-job.sh Usageに渡す方法がわかりません。
どうすればいいですか?
curl - Apache スパーク レスト API
log4j プロパティ用に持っている spark-submit コマンドを使用して、次のように Spark-submit を呼び出しています。
--driver-java-options
curl (Apache Spark の Hidden REST API) を介してジョブを送信するにはどうすればよいですか?
私はこれを試しました:
ジョブが正常に送信され、応答が返されましたが、uknownField が 1 つありました:
"unknownFields" : [ "spark.driver.extraJavaOptions" ]
私も次のように試しdriverExtraJavaOptions
ました:
しかし、同様の応答を得ました:
どうしてこれなの?spark-submit.scala
を見て、 Spark REST APIを参照しました