“spark-jobserver”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

342 参照

apache-spark - Spark JobServer の使用 spark は、hive-site.xml で構成された mysql 接続を使用しません。

Spark 2.0.2 での作業 Spark-submit で正常に動作する jar があります。今、Spark JobServer から使用したいと思います。

最初の問題は、メソッドが次のことでした。

SparkSession の代わりに非推奨の SparkContext をパラメーターとして使用します。私の解決策は、次のことを行うことでした。

Hive がインストールされていません。Spark に付属の HiveSupport を使用しているだけで、hive-site.xml を $SPARK_HOME/conf の下に配置すると、spark-submit で動作します。

hive-site.xml

しかし、この構成ファイルから Spark JobServer のジョブとしてこの jar を実行すると、hive.metastore.warehouse.dirのみが取得されます。Hive metastore_db を読み取り/保存するために MySQL db との接続を確立しません。もちろん、デフォルト db のテーブルを表示することもできません。$SPARK_HOME/jars フォルダーに mysql-connector-java-5.1.40-bin.jar があります。

MySQL DB にある Hive metastore_db に接続するにはどうすればよいですか?

2016-12-01T14:12:26.777

0 投票する

2 に答える

1117 参照

json - Spark JobServer で。input.stringでjson形式の文字列を渡す方法は?

次のcurlコマンドを実行してジョブを実行しようとしています:

しかし、次のエラーが表示されます。

私の考えは、SQL クエリのように複数のパラメーターを渡すことです。提出した jar を簡単に処理するための json 形式。

私は正しい道を進んでいますか、それとも別の道がありますか？

json apache-spark spark-jobserver

2016-12-04T11:24:48.707

0 投票する

1 に答える

45 参照

apache-spark - Spark-jobserver のビルド中にエラーが発生しました

未解決の依存関係: com.ning#async-http-client;1.8.10: org.sonatype.oss#oss-parent;9!oss-parent.pom(pom.original) 起点の場所は絶対でなければなりません: ファイル:

apache-spark spark-jobserver

2016-12-09T17:39:16.520

0 投票する

1 に答える

656 参照

apache-spark - spark-jobserver を使用して spark ジョブを送信中にエラーが発生しました

ジョブの送信中に、次のエラーが発生することがあります。このエラーは、filedao、datadao、および sqldao の rootdir を削除すると解消されます。つまり、ジョブサーバーを再起動して、jar を再アップロードする必要があります。

私の設定ファイルは次のとおりです。

spark-2.0-previewバージョンを使用しています。

apache-spark spark-jobserver

2016-12-13T12:26:01.390

0 投票する

1 に答える

444 参照

memory - Spark ジョブサーバーリリースメモリ

スタンドアローンモードでスパークジョブサーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。

使用するデフォルトのコンテキストを作成しました。現在、私はこのコンテキストで2種類の仕事をしています:

別のサーバーとの同期:
- 他のサーバーのデータベースからデータをダンプします。
- いくつかの結合を実行し、データを削減して、新しい DF を生成します。
- 取得した DF を寄木細工のファイルに保存します。
- この寄木細工のファイルを一時テーブルとして読み込み、キャッシュします。
クエリ: キャッシュされたテーブルで SQL クエリを実行します。

私が保持する唯一のオブジェクトは、キャッシュされる最終テーブルです。

私が得られないのは、同期を実行すると、割り当てられたすべてのメモリが使用され、決して解放されない理由ですが、寄木細工のファイルを直接ロードすると (以前に生成された寄木細工のファイルを使用して、サーバーを新たに起動します)、メモリの一部のみが使用されます。

何か足りない？未使用のメモリを解放する方法はありますか?

ありがとうございました

memory apache-spark spark-jobserver

2016-12-15T12:30:01.743

0 投票する

1 に答える

720 参照

logging - Spark ジョブサーバーのログを表示

スタンドアローンモードでスパークジョブサーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。

Scala を使用していくつかのジョブをセットアップしました。すべてのジョブは同じ共有コンテキストを使用しますが、ジョブ (またはコンテキスト) のログを保持する方法がわかりません。

現在私は使用しています：

成功せずに。ドキュメントや例が見つかりませんでした。それは可能ですか?

ありがとうございました

logging apache-spark spark-jobserver

2016-12-15T18:04:58.397

0 投票する

1 に答える

207 参照

rest - Spark Job Server から Job ステータスを取得するリスナー

ジョブのステータスを取得するために Spark Job Server にクエリを実行するための残りのリクエストを作成しています。コードは次のようになります。

次のようにジョブサーバーにリクエストを送信しています。

しかし、これが正しい方法だとは思いません。ジョブサーバーからステータスを取得し、いくつかを実行できるように、ある種のハンドラー/リスナーをWebリクエストに追加する方法を知る必要があるだけですユーザーに通知するような処理の種類。

これを行うライブラリはありますか？

rest spark-jobserver

2016-12-22T14:27:52.420

0 投票する

2 に答える

4331 参照

apache-spark - 単純な Web フレームワークではなく、なぜ Livy や spark-jobserver を使うのでしょうか?

Apache Spark の上に RESTful API を構築しています。次の Python スクリプトを使用するspark-submitと、問題なく動作するようです。

しかし、グーグルで調べてみると、 Livyやspark-jobserver のようなものが表示されます。これらのプロジェクトのドキュメントといくつかのチュートリアルを読みましたが、CherryPy や Flask、その他の Web フレームワークを使用した単純なスクリプトに対する Livy や spark-jobserver の利点をまだ完全には理解していません。スケーラビリティについてですか？コンテキスト管理？ここで何が欠けていますか？私が必要としているのがユーザー数の少ないシンプルな RESTful API である場合、Livy または spark-jobserver は問題を起こす価値がありますか? もしそうなら、なぜですか？

apache-spark spark-jobserver livy

2017-01-11T20:11:14.023

問題タブ [spark-jobserver]

Reference