問題タブ [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark ジョブ サーバーを使用した Spark SQL ジョブでのエラー "Invalid job type for this context"
Spark ジョブ サーバーで Spark SQL ジョブを作成し、以下のサンプルに従って HiveContext を使用します 。 HiveTestJob.scala
サーバーを起動できましたが、アプリケーション (SparkSqlJob を拡張する Scala クラス) を実行すると、次のような応答が返されます。
何がうまくいかないのか、またはSparkSQL用にジョブサーバーをセットアップするための詳細な手順を提供してくれる人はいますか?
コードは以下のとおりです。
apache-spark - SparkJobServer に MLlib モデルをキャッシュする
SparkServer コンテキストで namedObjects を永続化する方法を教えてもらえますか? これには可能性があることは知っていますが、まだ解決策を見つけていません。
よろしくお願いします!
apache-spark - NamedRddSupport で SparkJob を使用するとエラーが発生する
目標は、Spark JobServer のローカル インスタンスで以下を作成することです。
質問: すべてのジョブで発生する次のエラーを修正するにはどうすればよいですか:
Spark JobServer によるより詳細なエラーの説明:
誰かがコードを見たい場合:
バージョン情報: Spark は 1.5.0 - SparkJobServer は最新バージョンです
よろしくお願いします!
scala - Spark Job Server での RDD の永続化/共有
Spark Job Server を使用する後続のすべてのジョブで使用できるように、spark ジョブからの RDD を永続化したいと考えています。これが私が試したことです:
ジョブ 1:
ジョブ 2:
私が得るエラーは次のとおりです。
アクセスできるように上記のコードを変更してくださいto_be_persisted
。ありがとう
編集:
次を使用してscalaソースをコンパイルおよびパッケージ化した後、sparkコンテキストを作成しました。
以下を使用して FirstJob と NextJob を呼び出します。
apache-spark - スタンドアロンの Spark クラスターで Spark-Job-Server を使用して、キャッシュされた RDD (DataFrame) でクエリの並列処理の容量を増やす
まず、スタンドアロンの Spark クラスターは 20 個のノードで構成され、各ノードには 40 個のコアと 128G のメモリ (2 つのマスターを含む) があります。
1. Spark-Context を再利用するために Spark-Job-Server を使用します (コアでは、キャッシュされた RDD をクエリに再利用したい)、Spark executor メモリを各ノードに 33G に設定し、" select * from tablename limit 10" の場合、結果は不正な形式の UTF-8 スタイルになり、アプリでは解決できません。
しかし、executor-memory を 32G 未満に設定すると、結果は適切に形成されます。メモリを変更している間、残りの設定はそのままにしました。
Spark と Spark-Job-Server が混乱したコードの原因を教えてくれることを知っている人はいますか? 結果が混乱してコード化される理由は、メモリが多すぎるためですか?
2. 2 つ目は、ユーザー ケースにおけるより具体的なものです。60G のデータをメモリにロードし、メモリのみのストレージ レベルを使用して永続化します。データは実際には、クエリを実行する構造化されたテーブルです。次に、キャッシュされた 60G RDD (DataFrame として登録) で Spark SQL を試しました。具体的には、"select column from tableName where condition clause" などの複数のクエリを並行して実行すると、OOM 例外が発生しました。
現在の cluster でクエリの並列処理を増やしたいと考えています。並列処理の要件を解決するのに役立つヒントや情報を教えてください。
java - spark-jobserver で Java ベースの Spark ジョブを実行する
spark-jobserver
低レイテンシーのコンテキストを使用して集約 Spark ジョブを実行する必要があります。Java クラスから Java メソッドを使用してジョブを実行するためのこの Scala ランナーがあります。
ただし、次のエラーが発生します。Javaメソッドで返されたコンテンツを取り出してみましたが、テスト文字列を返すだけですが、まだ機能しません:
文字列を返すだけなので、タイムアウトが発生する理由がよくわかりません。
編集
そのため、JAR を更新する前に作成された Spark コンテキストを使用していたため、問題が発生していることがわかりました。ただし、Spark ジョブ内で JavaSparkContext を使用しようとすると、上記のエラーに戻ります。
エラーを取り除くための恒久的な方法は何でしょうか。
また、ローカルの docker コンテナーで重い Spark ジョブを実行しているという事実が、タイムアウトのもっともらしい理由になるでしょうか。