問題タブ [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
833 参照

apache-spark - Spark ジョブ サーバーを使用した Spark SQL ジョブでのエラー "Invalid job type for this context"

Spark ジョブ サーバーで Spark SQL ジョブを作成し、以下のサンプルに従って HiveContext を使用します 。 HiveTestJob.scala

サーバーを起動できましたが、アプリケーション (SparkSqlJob を拡張する Scala クラス) を実行すると、次のような応答が返されます。

何がうまくいかないのか、またはSparkSQL用にジョブサーバーをセットアップするための詳細な手順を提供してくれる人はいますか?

コードは以下のとおりです。

0 投票する
0 に答える
370 参照

hadoop - Spark jobserver が YARN プロセスを終了していません

YARN で実行するように Spark ジョブサーバーを構成しました。Spark ジョブを YARN に送信できますが、ジョブが終了しても YARN で終了しません

例: シンプルなスパーク コンテキストを作成しようとしました。コンテキストは jobserver に反映されていますが、YARN はまだプロセスを実行しており、タスクを手動で強制終了する必要があります。

糸仕事

糸仕事

スパーク コンテキスト スパーク コンテキスト

ジョブ サーバーはコンテキストを反映しますが、ジョブ サーバーでタスクを実行しようとするとすぐにエラーが発生します

私のSpark UIもあまり役に立ちません

スパークウイ

0 投票する
1 に答える
96 参照

apache-spark - SparkJobServer に MLlib モデルをキャッシュする

SparkServer コンテキストで namedObjects を永続化する方法を教えてもらえますか? これには可能性があることは知っていますが、まだ解決策を見つけていません。

よろしくお願いします!

0 投票する
2 に答える
389 参照

apache-spark - NamedRddSupport で SparkJob を使用するとエラーが発生する

目標は、Spark JobServer のローカル インスタンスで以下を作成することです。

質問: すべてのジョブで発生する次のエラーを修正するにはどうすればよいですか:

Spark JobServer によるより詳細なエラーの説明:

誰かがコードを見たい場合:

バージョン情報: Spark は 1.5.0 - SparkJobServer は最新バージョンです

よろしくお願いします!

0 投票する
1 に答える
1089 参照

scala - Spark Job Server での RDD の永続化/共有

Spark Job Server を使用する後続のすべてのジョブで使用できるように、spark ジョブからの RDD を永続化したいと考えています。これが私が試したことです:

ジョブ 1:

ジョブ 2:

私が得るエラーは次のとおりです。

アクセスできるように上記のコードを変更してくださいto_be_persisted。ありがとう

編集:

次を使用してscalaソースをコンパイルおよびパッケージ化した後、sparkコンテキストを作成しました。

以下を使用して FirstJob と NextJob を呼び出します。

0 投票する
0 に答える
199 参照

apache-spark - スタンドアロンの Spark クラスターで Spark-Job-Server を使用して、キャッシュされた RDD (DataFrame) でクエリの並列処理の容量を増やす

まず、スタンドアロンの Spark クラスターは 20 個のノードで構成され、各ノードには 40 個のコアと 128G のメモリ (2 つのマスターを含む) があります。

1. Spark-Context を再利用するために Spark-Job-Server を使用します (コアでは、キャッシュされた RDD をクエリに再利用したい)、Spark executor メモリを各ノードに 33G に設定し、" select * from tablename limit 10" の場合、結果は不正な形式の UTF-8 スタイルになり、アプリでは解決できません。

しかし、executor-memory を 32G 未満に設定すると、結果は適切に形成されます。メモリを変更している間、残りの設定はそのままにしました。

Spark と Spark-Job-Server が混乱したコードの原因を教えてくれることを知っている人はいますか? 結果が混乱してコード化される理由は、メモリが多すぎるためですか?

2. 2 つ目は、ユーザー ケースにおけるより具体的なものです。60G のデータをメモリにロードし、メモリのみのストレージ レベルを使用して永続化します。データは実際には、クエリを実行する構造化されたテーブルです。次に、キャッシュされた 60G RDD (DataFrame として登録) で Spark SQL を試しました。具体的には、"select column from tableName where condition clause" などの複数のクエリを並行して実行すると、OOM 例外が発生しました。

現在の cluster でクエリの並列処理を増やしたいと考えています。並列処理の要件を解決するのに役立つヒントや情報を教えてください。

0 投票する
1 に答える
575 参照

java - spark-jobserver で Java ベースの Spark ジョブを実行する

spark-jobserver低レイテンシーのコンテキストを使用して集約 Spark ジョブを実行する必要があります。Java クラスから Java メソッドを使用してジョブを実行するためのこの Scala ランナーがあります。

ただし、次のエラーが発生します。Javaメソッドで返されたコンテンツを取り出してみましたが、テスト文字列を返すだけですが、まだ機能しません:

文字列を返すだけなので、タイムアウトが発生する理由がよくわかりません。

編集

そのため、JAR を更新する前に作成された Spark コンテキストを使用していたため、問題が発生していることがわかりました。ただし、Spark ジョブ内で JavaSparkContext を使用しようとすると、上記のエラーに戻ります。

エラーを取り除くための恒久的な方法は何でしょうか。

また、ローカルの docker コンテナーで重い Spark ジョブを実行しているという事実が、タイムアウトのもっともらしい理由になるでしょうか。