問題タブ [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
447 参照

scala - クラスが見つかりません: org.apache.spark.h2o.package$StringHolder

シンプルなドロップレットhttps://github.com/h2oai/sparkling-waterプログラムを試していますが、spark-submit を使用して正常に実行できません。

サンプル コードで使用されているように、スパークリング ウォーター 1.6.4 を使用しました。

サンプルコードで提供されているgradelの方法は使用しませんでした。非常に単純な sbt ビルドを使用しました。

プログラムは、次のようになるまで正常に実行されます。

ただし、「クラスが見つかりません: org.apache.spark.h2o.package$StringHolder」というエラーが報告されます。

すべてが含まれているはずの spark-water-assembly-1.6.4-all.jar を含めたと思います。

誰でもアイデアを提案しますか?

0 投票する
2 に答える
1164 参照

h2o - h2oスパークリングウォーターはフレームをディスクに保存します

spark parquet ファイルから h2o フレームを作成して、フレームをインポートしようとしています。ファイルは 2GB で、約 12M 行と 12k 列のスパース ベクトルがあります。寄木細工の形式ではそれほど大きくありませんが、インポートには時間がかかります。h2o では、実際には 447 MB​​ の圧縮サイズとして報告されています。実際にはかなり小さい。

私はそれを間違っていますか?実際にインポートを終了したとき(39分かかりました)、h2oにフレームをディスクに保存して次回高速ロードするためのフォームはありますか??

h2o が舞台裏で非常に長い時間がかかる魔法を行っていることは理解していますが、11k x 1M のスパース データでは遅くて巨大なダウンロード csv オプションしか見つかりませんでした。

足りない部分があるような気がします。h2o データのインポート/エクスポートに関する情報は大歓迎です。モデルの保存/ロードはうまく機能しますが、トレーニング/検証/テスト データのロードは非常に遅い手順のようです。

私はそれぞれ 10g のスパークワーカーを 10 個手に入れ、ドライバーに 8g を与えました。これで十分でしょう。

0 投票する
0 に答える
292 参照

h2o - How to run Sparkling Water example with spark in local mode

I am trying to run sparkling water deep learning demo in IntelliJ IDEA The code link is:

https://github.com/h2oai/sparkling-water/blob/RELEASE-2.0.3/examples/src/main/scala/org/apache/spark/examples/h2o/DeepLearningDemo.scala

If fails to start, the exception is:

It looks exception is thrown when constructing H2OContext and InternalH2OBackend.

I would ask how to run this example in spark local mode that is run within IDE

0 投票する
1 に答える
464 参照

h2o - 炭酸水を理解する

スパークリング ウォーターを初めて使用するので、いくつか簡単な質問をしたいと思います。

  1. Sparking Water は、Spark MLlib と H2O の両方が提供するすべてのアルゴリズムをサポートしていますか?

  2. Sparkling Water 自体は、Spark MLlib と H2O がサポートしていないアルゴリズムを提供していますか?

  3. Sparkling Water コンテキスト内で純粋な Spark MLlib を使用してコードを記述したい場合H2OContext、Sparkling Water 関連の API を使用する必要がありますか?

上記の 3 つの質問から、私が理解したいのはスパークリング ウォーターのしくみだと思います。(今のところ、スパークリングウォーターがスパークとH2Oを一緒にすることしか知りません)

ありがとう。

AirlinesWithWeatherDemo2サンプルを正常に実行できましたが、次のrun-example.sh2 つの質問がありました。

  1. H2O Flow Web UI は、アプリケーションの実行中に開かれます (54321 ポートからアクセスできます) が、アプリケーションが終了すると、54321 ポートを開くプロセスもシャットダウンされます (Web UI にはアクセスできなくなります)。サンプルを実行しています。このフロー UI は短命である可能性があるため、どのような機能を提供しますか?

  2. Sparkling water は Spark と H2O を統合するためのものです。例を提出すると、アプリケーション jar として spark-water-assembly_2.11-2.0.3-all だけが必要です (サンプル クラスが含まれています)。 Sparkling water が提供しない H2O アルゴリズムを実行したい場合、H2O jar (h2o.jar) を依存 jar として追加する必要がありますか?

0 投票する
2 に答える
72 参照

apache-spark - H2O Flow を自動的に通過するジョブを作成する

分散ランダム フォレスト モデルを使用して何かを予測するフローを作成しましたが、フロー GUI を使用せずに数日ごとに予測したいと考えています。

H2O フローを自動化する方法や、スクリプト全体を Java/Python に変換してフローを自動的に実行する方法はありますか?

0 投票する
1 に答える
472 参照

r - sparklyr + rsparkling: クラスターへの接続中にエラーが発生しました

しばらくの間、sparklyrパッケージを使用して、コードを使用して会社の Hadoop クラスターに接続しています。

rsparklingすべて正常に動作しますが、同様のコードを使用してパッケージを追加しようとすると:

エラーが発生します:

force(code) のエラー:
sessionid (9819) のポート (8880) への sparklyr への接続中に失敗しました: Sparklyr ゲートウェイは、60 秒後にポート情報を取得中に応答しませんでした パス: /opt/spark-2.0.0-bin-hadoop2. 6/bin/spark-submit パラメータ: --class, sparklyr.Backend, --packages, 'ai.h2o:sparkling-water-core_2.11:2.0','ai.h2o:sparkling-water-ml_2.11: 2.0','ai.h2o:sparkling-water-repl_2.11:2.0', '/usr/lib64/R/library/sparklyr/java/sparklyr-2.0-2.11.jar', 8880, 9819

---- 出力ログ ----
Ivy Default Cache set to: /opt/users/user/.ivy2/cache 格納されているパッケージの jar: /opt/users/user/.ivy2/jars :: 設定の読み込み:: url = jar:ファイル:/opt/spark-2.0.0-bin-hadoop2.6/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml ai.h2o #sparkling-water-core_2.11 依存関係として追加 ai.h2o#sparkling-water-ml_2.11 依存関係として追加 ai.h2o#sparkling-water-repl_2.11 依存関係として追加 :: 依存関係の解決 :: org. apache.spark#spark-submit-parent;1.0 confs: [デフォルト]

---- エラー ログ ----
さらに: 警告メッセージ: 1: In if (nchar(config[[e]]) == 0) found <- FALSE : 条件の長さは 1 で、最初の要素のみが2: In if (nchar(config[[e]]) == 0) found <- FALSE : 条件の長さは 1 で、最初の要素のみが使用されます

私は初めてでsparkclusters今何をすべきかよくわかりません。どんな助けでも大歓迎です。私が最初に考えたのは、サイドのjarファイルが見つからないということでした。そうですか?sparkling watercluster