H2Oのスパークリングウォーターを使ってモデルを作成しました。そして今、それを巨大なSpark DF(スパースベクトルが取り込まれた)に適用したいと思います。私はpythonとpyspark、pysparklingを使用しています。基本的に、内部で model.predict() 関数を使用してマップ ジョブを実行する必要があります。しかし、データを H2O コンテキストにコピーすることは大きなオーバーヘッドであり、オプションではありません。私がやろうと思っているのは、h2o モデルから POJO (Java クラス) モデルを抽出し、それを使用してデータフレームでマップを行うことです。私の質問は次のとおりです。
- より良い方法はありますか?
- Java クラスの pyspark ラッパーの作成方法。そこからメソッド .score(double[] data, double[] result) を 1 つだけ使用する予定です。
- Spark ML ライブラリのラッパーを最大限に再利用するには?
ありがとうございました!