問題タブ [sparkling-water]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - スパークリングウォーターシェルで 2GB を超えてワーカーメモリを増やすことができません
を実行する場合sparkling-shell
:
次のエラーが発生します。
に次のように設定しましたspark-env.sh
:
そして、次のspark-defaults.conf
:
シェルを起動させる唯一の方法は、ワーカー メモリを 2GB にリセットすることです。
しかし、それだけでは私たちの仕事を遂行するには不十分です。この問題の回避策を見つけた人はいますか?
python - Sparkling Water - Python スクリプトを Spark アプリケーションとして実行する
Sparkling Water で Python スクリプトを Spark アプリケーションとして実行するのに問題があります。このコマンドを使用して、Spark でスクリプトを実行します。
./bin/spark-submit \
--packages ai.h2o:sparkling-water-core_2.10:1.5.12 \
--py-files $SPARKLING_HOME/py/dist/pySparkling-1.5.12-py2.7.egg $SPARKLING_HOME/Python/test.py
そして、私はこの落下エラーがあります:
py4j.protocol.Py4JError: パッケージを呼び出そうとしています。
ログ:
この問題を解決するにはどうすればよいですか? 小冊子のコマンドに正確に従っています:https://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf
scala - scalaで整数型のH2OFrame列を強制する方法は?
私は a をトレーニングしてDRFModel
おり、例外の受信を評価しています: Exception in thread "main" java.lang.ClassCastException: hex.ModelMetricsRegression cannot be cast to hex.ModelMetricsBinomial
。
データには、0 または 1 を含む「ラベル」と呼ばれる列があり、それがターゲット列です: dRFParameters._response_column = "label"
. モデルはターゲット列の値を実数として扱っているようです。
python API でもこの問題が発生し、次のH2OFrame
:を使用して修正しましたhdf['label'] = hdf['label'].asfactor()
。私はscalaとh2oが初めてです。h2oにターゲット列をH2OFrame
バイナリ(整数)で処理させる最良の方法は何だろうと思っていました。
(これは、スタック オーバーフローに関する私の最初の質問です。より具体的にする必要があるか、コード全体を添付する必要があるかどうかを教えてください。ありがとう。)
scala - 列の値に基づいてH2OFrame(scala)の行をフィルタリングする方法は?
私はH2OFrame
CSVファイルから読んでいます:
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
操作に相当するものを実行するにはどうすればよいですか.filter()
(SparkDataFrame
またはで利用可能RDD
)。たとえば、H2OFrame
「ラベル」(列名) がどこにあるかを取得するにはどうすればよい>1
ですか?
以下のように変換しようとしましたorg.apache.spark.sql.DataFrame
(簡略化された例):
しかし、これは以下のようにスローさOutOfMemoryError
れるようです:
例外: スレッド "Executor task launch worker-2" の UncaughtExceptionHandler から java.lang.OutOfMemoryError がスローされる
python - Databricks + H2O PySparkling: addURL Py4JException
私は H2O と spark フレームワークの初心者で、H2O+Spark (sparkling-water)
Databricks での PySparkling のオンボーディングに問題があります。1.5.2 環境の Databricks で実行されている 12 のワーカー クラスターがあります。
私が行った手順は次のとおりです
。
sparkling-water-1.5.14/py/dist
次に、 sparkling-water-1.5.14.zip パッケージから解凍した後、フォルダーから必要な .egg ファイルを取得しました。また
sparkling-water-assembly-1.5.14.jar
、Databricks クラスターに接続しました私は
import h2o
成功することができます。ただし、Databricks の Python NB で次のセルを実行すると、以下の例外が発生します。Spark 上で H2OContext を開始する
from pysparkling import * hc = H2OContext(sc).start() import h2o
次のエラーが表示されます
この例外を解決する方法に関するガイダンスをよろしくお願いします。
machine-learning - H2O の入力 CSV でアイテムのリストを表す
H2O の入力データ (データ フレーム) で項目のセット/リストを表すにはどうすればよいですか?
H2O Flow の炭酸水 1.6.5 を使用しています。入力データ (CSV ファイルの列) は次のようになります。
趣味とスポーツはリスト/セットで、エントリ数が制限されています (各 20 まで)。H2O には、これに適したデータ型がないようです。これらを H2O Flow で処理できる CSV ファイルにエクスポートするにはどうすればよいですか?
apache-spark - H2O インスタンスを持たない Executor が発見され、クラウドが停止する
20 MB、400 MB、2 GB、25 GB など、さまざまなサイズのデータに炭酸水を使用して Tweedie GLM を実行しています。コードはSampling iteration 10で正常に動作します。しかし、大規模なサンプリングシナリオをテストする必要があります..
この場合、コードは 20 および 400 mb のデータに対して適切に機能しますが、データが 2 GB を超えると問題が発生し始めます。
検索を行った後、変更リスナーを無効にするソリューションが1つ見つかりましたが、それは大きなデータでは機能しませんでした。
--conf "spark.scheduler.minRegisteredResourcesRatio=1" "spark.ext.h2o.topology.change.listener.enabled=false"
これが私のspark送信構成です
これは私がエラーとして得たものです
scala - Sparkling water: spark ml パイプラインのサポートを利用できません
Sparkling water 関係者によるこのブログによると、Spark ML パイプライン コンポーネントを使用して、最新バージョンで DL モデルを構築できるようになりました。私は自分の最新バージョンを追加しようとしましたbuild.sbt
しかし、うまくいきません。インポートしようとしてもうまくいきorg.apache.spark.ml.h2o.H2OPipeline
ません。h2o
内部のパッケージspark.ml
は、spark jar には存在しないようです。ブログに示されているように、 h2oを使用して DL モデルを作成するために、spark-mllib 機能トランスフォーマーを再利用したいと思っています。
どんな助けでも大歓迎です!
ありがとう。