問題タブ [sparkling-water]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - H2O (python および R) でインターセプトを除外すると、とにかくインターセプトのゼロ以外の係数が生成されます
Python と R の両方で H2O ライブラリを使用して、インターセプトを含まない GLM を生成しようとしています。残念ながら、機能していないようです。結果は完全にずれており、切片係数はゼロではありません (切片の標準化された係数のみがゼロです) が、これでは正しい予測が得られません。
モデルから切片を除外すると、他のすべての入力が 0 に等しい場合の予測も 0 になると予想されます。これはそうではありません。係数は予測を大幅に相殺しており、実際には、切片がないとわかっているシミュレートされたデータで切片 = True を設定すると、同じデータを切片 = False で実行した場合よりも切片係数が 0 にかなり近くなります。
同じことが R と Python の両方で発生し、モデルのセットアップで何か間違ったことを行っているかどうかはわかりません。
Rで問題をテストするためだけに書いたコードの例:
ここで明らかな何かが欠けていますか?
python - h2o から、N フォルダーのクロス検証結果をデータフレームにエクスポートする方法はありますか?
GBMモデルを構築するためにH2Oスパーク水を使用しています。以下のコードを使用して、N フォルダーのクロス検証結果を表示できることはわかっています。
しかし、各フォルダーのモデルのパフォーマンスをデータ フレームに保存する方法はありますか? たとえば、各フォルダーの AUC をデータ フレームに保存します。
pyspark - H2O 外部バックエンドでのフレームのアップロード/作成が python/pyspark からハングする
コマンドが内部バックエンドh2o.H2OFrame([1,2,3])
の h2o 内でフレームを作成しているが、外部バックエンドでは作成していないという問題が発生しています。代わりに、接続は終了していません (フレームは作成されていますが、プロセスはハングします)。
への投稿/3/ParseSetup
が返されていないurllib3
ように見えます (行き詰まっているようです)。より具体的には、外部バックエンドへの接続の h2o ログから、これの例を示します (ここでは日付と IP を短縮しています)。
比較すると、内部バックエンドはその呼び出しを完了し、ログ ファイルには次のものが含まれます。
発生するロックに違いはありby job null
ますが解除されているので、致命的な問題ではないと思います。私は両方のバックエンドでそのエンドポイントのカールに失敗しました。原因を特定するためにソース コードを確認しています。
h2o.ls()
プロセスがハングアップしているにもかかわらず、アップロードされたフレームが実行されていることを確認できh2o.get_frame(frame_id="myframe_id")
、外部バックエンドを使用してフレームを取得できます。
私は次のことを試しました/確認しました:
- Spark のバージョンに対してスパークリング ウォーターのバージョンが正しいことを確認しました (つまり、h2o_pysparkling_2.3 - Spark 2.3.xの場合、 docs.h2o.aiに記載されています--- 私の場合、スパークリング ウォーター 2.3.12 - Spark 2.3. 0.cloudera2);
- クラスターに安定したスパークリングウォーターをダウンロードして実行し
./get-extended-h2o.sh cdh5.14
、h2odriver-sw2.3.0-cdh5.14-extended.jar
jar を取得しました。 - map reduce ジョブのパラメーターのさまざまな順列。興味深いことに、私たちのクラスターは非常にビジーであり、安定性のためにベース ポートの設定が不可欠でした。また、私たちのサブネットは、マルチキャストを台無しにするスイッチにまたがっています。最終的に、次の引数は必ずバックエンドを起動しました:
- 動作しているため、バックエンドにクエリを実行できることを確認しました
h2o.ls()
。 - プレーン リストの代わりに Spark データフレームをアップロードしました (同じ問題):
YARN の観点から、単純なテスト アプリのクライアント モードとクラスター モードの送信を試みました。
デフォルトのクライアント モードの場合--master yarn
となしの場合があります。--deploy-mode cluster
最後に、extreboot.py
コードは次のとおりです。
(内部バックエンドと比較して)ハングしている可能性がある理由、私が間違っていること、またはこれをより適切にデバッグするためにどの手順を実行できるかを誰かが知っていますか? ありがとう!