問題タブ [spark-jobserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
342 参照

apache-spark - Spark JobServer の使用 spark は、hive-site.xml で構成された mysql 接続を使用しません。

Spark 2.0.2 での作業 Spark-submit で正常に動作する jar があります。今、Spark JobServer から使用したいと思います。

最初の問題は、メソッドが次のことでした。

SparkSession の代わりに非推奨の SparkContext をパラメーターとして使用します。私の解決策は、次のことを行うことでした。

Hive がインストールされていません。Spark に付属の HiveSupport を使用しているだけで、hive-site.xml を $SPARK_HOME/conf の下に配置すると、spark-submit で動作します。

hive-site.xml

しかし、この構成ファイルから Spark JobServer のジョブとしてこの jar を実行すると、hive.metastore.warehouse.dirのみが取得されます。Hive metastore_db を読み取り/保存するために MySQL db との接続を確立しません。もちろん、デフォルト db のテーブルを表示することもできません。$SPARK_HOME/jars フォルダーに mysql-connector-java-5.1.40-bin.jar があります。

MySQL DB にある Hive metastore_db に接続するにはどうすればよいですか?

0 投票する
2 に答える
1117 参照

json - Spark JobServer で。input.stringでjson形式の文字列を渡す方法は?

次のcurlコマンドを実行してジョブを実行しようとしています:

しかし、次のエラーが表示されます。

私の考えは、SQL クエリのように複数のパラメーターを渡すことです。提出した jar を簡単に処理するための json 形式。

私は正しい道を進んでいますか、それとも別の道がありますか?

0 投票する
1 に答える
45 参照

apache-spark - Spark-jobserver のビルド中にエラーが発生しました

未解決の依存関係: com.ning#async-http-client;1.8.10: org.sonatype.oss#oss-parent;9!oss-parent.pom(pom.original) 起点の場所は絶対でなければなりません: ファイル:

0 投票する
1 に答える
656 参照

apache-spark - spark-jobserver を使用して spark ジョブを送信中にエラーが発生しました

ジョブの送信中に、次のエラーが発生することがあります。このエラーは、filedao、datadao、および sqldao の rootdir を削除すると解消されます。つまり、ジョブ サーバーを再起動して、jar を再アップロードする必要があります。

私の設定ファイルは次のとおりです。

spark-2.0-previewバージョンを使用しています。

0 投票する
1 に答える
444 参照

memory - Spark ジョブ サーバー リリース メモリ

スタンドアローン モードでスパーク ジョブ サーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。

使用するデフォルトのコンテキストを作成しました。現在、私はこのコンテキストで2種類の仕事をしています:

  • 別のサーバーとの同期:
    • 他のサーバーのデータベースからデータをダンプします。
    • いくつかの結合を実行し、データを削減して、新しい DF を生成します。
    • 取得した DF を寄木細工のファイルに保存します。
    • この寄木細工のファイルを一時テーブルとして読み込み、キャッシュします。
  • クエリ: キャッシュされたテーブルで SQL クエリを実行します。

私が保持する唯一のオブジェクトは、キャッシュされる最終テーブルです。

私が得られないのは、同期を実行すると、割り当てられたすべてのメモリが使用され、決して解放されない理由ですが、寄木細工のファイルを直接ロードすると (以前に生成された寄木細工のファイルを使用して、サーバーを新たに起動します)、メモリの一部のみが使用されます。

何か足りない?未使用のメモリを解放する方法はありますか?

ありがとうございました

0 投票する
1 に答える
720 参照

logging - Spark ジョブ サーバーのログを表示

スタンドアローン モードでスパーク ジョブ サーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。

Scala を使用していくつかのジョブをセットアップしました。すべてのジョブは同じ共有コンテキストを使用しますが、ジョブ (またはコンテキスト) のログを保持する方法がわかりません。

現在私は使用しています:

成功せずに。ドキュメントや例が見つかりませんでした。それは可能ですか?

ありがとうございました

0 投票する
1 に答える
207 参照

rest - Spark Job Server から Job ステータスを取得するリスナー

ジョブのステータスを取得するために Spark Job Server にクエリを実行するための残りのリクエストを作成しています。コードは次のようになります。

次のようにジョブサーバーにリクエストを送信しています。

しかし、これが正しい方法だとは思いません。ジョブサーバーからステータスを取得し、いくつかを実行できるように、ある種のハンドラー/リスナーをWebリクエストに追加する方法を知る必要があるだけですユーザーに通知するような処理の種類。

これを行うライブラリはありますか?

0 投票する
2 に答える
4331 参照

apache-spark - 単純な Web フレームワークではなく、なぜ Livy や spark-jobserver を使うのでしょうか?

Apache Spark の上に RESTful API を構築しています。次の Python スクリプトを使用するspark-submitと、問題なく動作するようです。

しかし、グーグルで調べてみると、 Livyspark-jobserver のようなものが表示されます。これらのプロジェクトのドキュメントといくつかのチュートリアルを読みましたが、CherryPy や Flask、その他の Web フレームワークを使用した単純なスクリプトに対する Livy や spark-jobserver の利点をまだ完全には理解していません。スケーラビリティについてですか?コンテキスト管理?ここで何が欠けていますか?私が必要としているのがユーザー数の少ないシンプルな RESTful API である場合、Livy または spark-jobserver は問題を起こす価値がありますか? もしそうなら、なぜですか?