問題タブ [spark-jobserver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark JobServer の使用 spark は、hive-site.xml で構成された mysql 接続を使用しません。
Spark 2.0.2 での作業 Spark-submit で正常に動作する jar があります。今、Spark JobServer から使用したいと思います。
最初の問題は、メソッドが次のことでした。
SparkSession の代わりに非推奨の SparkContext をパラメーターとして使用します。私の解決策は、次のことを行うことでした。
Hive がインストールされていません。Spark に付属の HiveSupport を使用しているだけで、hive-site.xml を $SPARK_HOME/conf の下に配置すると、spark-submit で動作します。
hive-site.xml
しかし、この構成ファイルから Spark JobServer のジョブとしてこの jar を実行すると、hive.metastore.warehouse.dirのみが取得されます。Hive metastore_db を読み取り/保存するために MySQL db との接続を確立しません。もちろん、デフォルト db のテーブルを表示することもできません。$SPARK_HOME/jars フォルダーに mysql-connector-java-5.1.40-bin.jar があります。
MySQL DB にある Hive metastore_db に接続するにはどうすればよいですか?
json - Spark JobServer で。input.stringでjson形式の文字列を渡す方法は?
次のcurlコマンドを実行してジョブを実行しようとしています:
しかし、次のエラーが表示されます。
私の考えは、SQL クエリのように複数のパラメーターを渡すことです。提出した jar を簡単に処理するための json 形式。
私は正しい道を進んでいますか、それとも別の道がありますか?
apache-spark - Spark-jobserver のビルド中にエラーが発生しました
未解決の依存関係: com.ning#async-http-client;1.8.10: org.sonatype.oss#oss-parent;9!oss-parent.pom(pom.original) 起点の場所は絶対でなければなりません: ファイル:
apache-spark - spark-jobserver を使用して spark ジョブを送信中にエラーが発生しました
ジョブの送信中に、次のエラーが発生することがあります。このエラーは、filedao、datadao、および sqldao の rootdir を削除すると解消されます。つまり、ジョブ サーバーを再起動して、jar を再アップロードする必要があります。
私の設定ファイルは次のとおりです。
spark-2.0-preview
バージョンを使用しています。
memory - Spark ジョブ サーバー リリース メモリ
スタンドアローン モードでスパーク ジョブ サーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。
使用するデフォルトのコンテキストを作成しました。現在、私はこのコンテキストで2種類の仕事をしています:
- 別のサーバーとの同期:
- 他のサーバーのデータベースからデータをダンプします。
- いくつかの結合を実行し、データを削減して、新しい DF を生成します。
- 取得した DF を寄木細工のファイルに保存します。
- この寄木細工のファイルを一時テーブルとして読み込み、キャッシュします。
- クエリ: キャッシュされたテーブルで SQL クエリを実行します。
私が保持する唯一のオブジェクトは、キャッシュされる最終テーブルです。
私が得られないのは、同期を実行すると、割り当てられたすべてのメモリが使用され、決して解放されない理由ですが、寄木細工のファイルを直接ロードすると (以前に生成された寄木細工のファイルを使用して、サーバーを新たに起動します)、メモリの一部のみが使用されます。
何か足りない?未使用のメモリを解放する方法はありますか?
ありがとうございました
logging - Spark ジョブ サーバーのログを表示
スタンドアローン モードでスパーク ジョブ サーバー ( https://github.com/spark-jobserver/spark-jobserver/tree/jobserver-0.6.2-spark-1.6.1を参照) をセットアップしました。
Scala を使用していくつかのジョブをセットアップしました。すべてのジョブは同じ共有コンテキストを使用しますが、ジョブ (またはコンテキスト) のログを保持する方法がわかりません。
現在私は使用しています:
成功せずに。ドキュメントや例が見つかりませんでした。それは可能ですか?
ありがとうございました
rest - Spark Job Server から Job ステータスを取得するリスナー
ジョブのステータスを取得するために Spark Job Server にクエリを実行するための残りのリクエストを作成しています。コードは次のようになります。
次のようにジョブサーバーにリクエストを送信しています。
しかし、これが正しい方法だとは思いません。ジョブサーバーからステータスを取得し、いくつかを実行できるように、ある種のハンドラー/リスナーをWebリクエストに追加する方法を知る必要があるだけですユーザーに通知するような処理の種類。
これを行うライブラリはありますか?
apache-spark - 単純な Web フレームワークではなく、なぜ Livy や spark-jobserver を使うのでしょうか?
Apache Spark の上に RESTful API を構築しています。次の Python スクリプトを使用するspark-submit
と、問題なく動作するようです。
しかし、グーグルで調べてみると、 Livyやspark-jobserver のようなものが表示されます。これらのプロジェクトのドキュメントといくつかのチュートリアルを読みましたが、CherryPy や Flask、その他の Web フレームワークを使用した単純なスクリプトに対する Livy や spark-jobserver の利点をまだ完全には理解していません。スケーラビリティについてですか?コンテキスト管理?ここで何が欠けていますか?私が必要としているのがユーザー数の少ないシンプルな RESTful API である場合、Livy または spark-jobserver は問題を起こす価値がありますか? もしそうなら、なぜですか?