私は h2o ユーザーになって 1 年半強になりますが、私の仕事は R API に限られています。h2o フローは私にとって比較的新しいものです。これも初めての場合は、基本的に 0xdata の iPython バージョンですが、iPython を使用すると、ノートブックをスクリプトにエクスポートできます。フローで同様のオプションが見つかりません...
モデル (ビルトイン フロー) を本番環境に移行しようとしていますが、それを自動化する方法を考えています。R api を使用すると、モデルを構築して保存した後、R に簡単にロードして、nohup Rscript <the_file> &
CLI から実行するだけで新しいデータを予測できましたが、特にフローで同様のことを行う方法がわかりません。 Hadoop で実行されているためです。
現在のところ、すべての実行は 3 つの部分に分割され、フローは途中で比較的厄介なプロセスを作成します。
- データを前処理し、hdfs に移動します
- Hadoop で h2o を開始し、
nslookup
h2o が実行されている IP アドレス、フローをセルごとに手動で実行します - 予測後のクリーンアップと最終ステップを実行する
これは非常に押し付けがましい制作プロセスであり、すべてを結び付けたいのですが、流れがかなり難しくなっています。質問を抽出するには: フローを Hadoop jar に圧縮し、後で jar を次のように実行する方法はありhadoop jar <my_flow_jar.jar> ...
ますか?
編集:
h2o R パッケージのドキュメントは次のとおりです。R API を使用すると H2O モデルを読み込むことができるので、フローを (H2O モデルであるかのように) 読み込んでみましたが、water.api.FSIOException
技術的には h2o モデルではないため、当然のことながら機能しませんでした ( a で失敗しました)。