“sparkling-water”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

403 参照

apache-spark - スパークリングウォーターシェルで 2GB を超えてワーカーメモリを増やすことができません

を実行する場合sparkling-shell:

次のエラーが発生します。

に次のように設定しましたspark-env.sh:

そして、次のspark-defaults.conf:

シェルを起動させる唯一の方法は、ワーカーメモリを 2GB にリセットすることです。

しかし、それだけでは私たちの仕事を遂行するには不十分です。この問題の回避策を見つけた人はいますか?

2016-04-07T01:40:42.940

0 投票する

1 に答える

786 参照

python - Sparkling Water - Python スクリプトを Spark アプリケーションとして実行する

Sparkling Water で Python スクリプトを Spark アプリケーションとして実行するのに問題があります。このコマンドを使用して、Spark でスクリプトを実行します。

./bin/spark-submit \

--packages ai.h2o:sparkling-water-core_2.10:1.5.12 \

--py-files $SPARKLING_HOME/py/dist/pySparkling-1.5.12-py2.7.egg $SPARKLING_HOME/Python/test.py

そして、私はこの落下エラーがあります:

py4j.protocol.Py4JError: パッケージを呼び出そうとしています。

ログ:

この問題を解決するにはどうすればよいですか? 小冊子のコマンドに正確に従っています：https://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf

python pyspark h2o sparkling-water

2016-04-12T20:26:14.437

0 投票する

2 に答える

701 参照

scala - scalaで整数型のH2OFrame列を強制する方法は?

私は a をトレーニングしてDRFModelおり、例外の受信を評価しています: Exception in thread "main" java.lang.ClassCastException: hex.ModelMetricsRegression cannot be cast to hex.ModelMetricsBinomial。

データには、0 または 1 を含む「ラベル」と呼ばれる列があり、それがターゲット列です: dRFParameters._response_column = "label". モデルはターゲット列の値を実数として扱っているようです。

python API でもこの問題が発生し、次のH2OFrame:を使用して修正しましたhdf['label'] = hdf['label'].asfactor()。私はscalaとh2oが初めてです。h2oにターゲット列をH2OFrameバイナリ（整数）で処理させる最良の方法は何だろうと思っていました。

(これは、スタックオーバーフローに関する私の最初の質問です。より具体的にする必要があるか、コード全体を添付する必要があるかどうかを教えてください。ありがとう。)

scala h2o sparkling-water

2016-05-06T00:42:21.437

0 投票する

1 に答える

935 参照

scala - 列の値に基づいてH2OFrame(scala)の行をフィルタリングする方法は?

私はH2OFrameCSVファイルから読んでいます：

val h2oFrame = new H2OFrame(new File(inputCsvFilePath))

操作に相当するものを実行するにはどうすればよいですか.filter()(SparkDataFrameまたはで利用可能RDD)。たとえば、H2OFrame「ラベル」(列名) がどこにあるかを取得するにはどうすればよい>1ですか?

以下のように変換しようとしましたorg.apache.spark.sql.DataFrame（簡略化された例）：

しかし、これは以下のようにスローさOutOfMemoryErrorれるようです:

例外: スレッド "Executor task launch worker-2" の UncaughtExceptionHandler から java.lang.OutOfMemoryError がスローされる

scala h2o sparkling-water

2016-05-17T20:51:23.913

0 投票する

1 に答える

325 参照

python - Databricks + H2O PySparkling: addURL Py4JException

私は H2O と spark フレームワークの初心者で、H2O+Spark (sparkling-water)Databricks での PySparkling のオンボーディングに問題があります。1.5.2 環境の Databricks で実行されている 12 のワーカークラスターがあります。

私が行った手順は次のとおりです
。

sparkling-water-1.5.14/py/dist次に、 sparkling-water-1.5.14.zip パッケージから解凍した後、フォルダーから必要な .egg ファイルを取得しました。
またsparkling-water-assembly-1.5.14.jar、Databricks クラスターに接続しました
私はimport h2o成功することができます。ただし、Databricks の Python NB で次のセルを実行すると、以下の例外が発生します。

Spark 上で H2OContext を開始する
from pysparkling import * hc = H2OContext(sc).start() import h2o

次のエラーが表示されます

この例外を解決する方法に関するガイダンスをよろしくお願いします。

python pyspark jupyter-notebook h2o sparkling-water

2016-05-28T23:28:09.670

0 投票する

1 に答える

138 参照

machine-learning - H2O の入力 CSV でアイテムのリストを表す

H2O の入力データ (データフレーム) で項目のセット/リストを表すにはどうすればよいですか?

H2O Flow の炭酸水 1.6.5 を使用しています。入力データ (CSV ファイルの列) は次のようになります。

趣味とスポーツはリスト/セットで、エントリ数が制限されています (各 20 まで)。H2O には、これに適したデータ型がないようです。これらを H2O Flow で処理できる CSV ファイルにエクスポートするにはどうすればよいですか?

machine-learning h2o sparkling-water

2016-06-25T10:03:30.080

0 投票する

2 に答える

529 参照

apache-spark - H2O インスタンスを持たない Executor が発見され、クラウドが停止する

20 MB、400 MB、2 GB、25 GB など、さまざまなサイズのデータに炭酸水を使用して Tweedie GLM を実行しています。コードはSampling iteration 10で正常に動作します。しかし、大規模なサンプリングシナリオをテストする必要があります..

この場合、コードは 20 および 400 mb のデータに対して適切に機能しますが、データが 2 GB を超えると問題が発生し始めます。

検索を行った後、変更リスナーを無効にするソリューションが1つ見つかりましたが、それは大きなデータでは機能しませんでした。
--conf "spark.scheduler.minRegisteredResourcesRatio=1" "spark.ext.h2o.topology.change.listener.enabled=false"

これが私のspark送信構成です

これは私がエラーとして得たものです

apache-spark machine-learning glm h2o sparkling-water

2016-07-08T21:51:18.113

0 投票する

2 に答える

464 参照

scala - Sparkling water: spark ml パイプラインのサポートを利用できません

Sparkling water 関係者によるこのブログによると、Spark ML パイプラインコンポーネントを使用して、最新バージョンで DL モデルを構築できるようになりました。私は自分の最新バージョンを追加しようとしましたbuild.sbt

しかし、うまくいきません。インポートしようとしてもうまくいきorg.apache.spark.ml.h2o.H2OPipelineません。h2o内部のパッケージspark.mlは、spark jar には存在しないようです。ブログに示されているように、 h2oを使用して DL モデルを作成するために、spark-mllib 機能トランスフォーマーを再利用したいと思っています。

どんな助けでも大歓迎です！

ありがとう。

scala apache-spark apache-spark-mllib h2o sparkling-water

2016-10-03T18:55:15.917

問題タブ [sparkling-water]

Reference