1

スパークリング ウォーターを初めて使用するので、いくつか簡単な質問をしたいと思います。

  1. Sparking Water は、Spark MLlib と H2O の両方が提供するすべてのアルゴリズムをサポートしていますか?

  2. Sparkling Water 自体は、Spark MLlib と H2O がサポートしていないアルゴリズムを提供していますか?

  3. Sparkling Water コンテキスト内で純粋な Spark MLlib を使用してコードを記述したい場合H2OContext、Sparkling Water 関連の API を使用する必要がありますか?

上記の 3 つの質問から、私が理解したいのはスパークリング ウォーターのしくみだと思います。(今のところ、スパークリングウォーターがスパークとH2Oを一緒にすることしか知りません)

ありがとう。

Questions-2017-01-11

AirlinesWithWeatherDemo2サンプルを正常に実行できましたが、次のrun-example.sh2 つの質問がありました。

  1. H2O Flow Web UI は、アプリケーションの実行中に開かれます (54321 ポートからアクセスできます) が、アプリケーションが終了すると、54321 ポートを開くプロセスもシャットダウンされます (Web UI にはアクセスできなくなります)。サンプルを実行しています。このフロー UI は短命である可能性があるため、どのような機能を提供しますか?

  2. Sparkling water は Spark と H2O を統合するためのものです。例を提出すると、アプリケーション jar として spark-water-assembly_2.11-2.0.3-all だけが必要です (サンプル クラスが含まれています)。 Sparkling water が提供しない H2O アルゴリズムを実行したい場合、H2O jar (h2o.jar) を依存 jar として追加する必要がありますか?

4

1 に答える 1

2
  1. はい

  2. そうではありませんが、H2O の FlowUI から実行できるように Spark の MLlib アルゴリズムをラップし、MLlib のパイプラインで使用できるように H2O のアルゴリズムをラップする作業を行っています。

  3. H2O 固有の機能を実行する場合にのみ、H2OContext が必要です。

Sparkling Water を使用すると、手動で H2O クラスターをブートストラップする代わりに、Spark ノード内で H2O ノードを実行できます。これにより、H2O と Spark の両方でデータを使用することもできます。

@編集:

  1. ただし、最初の計算を行った後に終了せずにジョブをロックする (そして、何らかの方法で強制終了する必要がある) 長時間実行される Spark ジョブがある場合があります。その後、通常どおり FlowUI を使用できます。毎回 (デモであっても) HTTP サーバーを起動するだけです。それをしない理由はありません。

  2. テンプレート プロジェクトであるhttps://github.com/h2oai/h2o-droplets/tree/master/sparkling-water-dropletのいずれかのドロップレットを使用できます。メイン クラスにロジックを追加し、実行./gradlew shadowJarして送信します。が付いている瓶にはspark-submit、すでにすべての瓶が含まれています。または、あなたが言ったように、H2O.jar が含まれている必要なすべての依存関係を (--jarsまたは) 提供する必要があります。--packages

于 2017-01-06T08:20:17.247 に答える