apache-spark - ランダムフォレストを使用した Spark プロセスデータフレーム

Question

Spark 1.5.1への回答である MLLib Random Forest Probabilityを使用して、を使用してランダムフォレストをトレーニングし、トレーニングされたランダムフォレストでホールドアウトデータフレームを処理することができましml.classification.RandomForestClassifierた。

私が抱えている問題は、このトレーニングされたランダムフォレストを保存して、将来 (トレーニングセットと同じ機能を持つ) データフレームを処理したいということです。

このページの分類例ではを使用しmllib.tree.model.RandomForestModelて、トレーニング済みのフォレストを保存する方法を示していますが、私の理解では、LabeledPointRDD でのみトレーニング (および将来的に処理) できます。私が RDD で抱えている問題LabeledPointは、これにはラベル double と特徴ベクトルのみを含めることができるため、他の目的に必要な非ラベル/非特徴列がすべて失われることです。

ml.classification.RandomForestClassifieしたがって、 rの結果を保存するかLabeledPoint、ラベル以外の列を保持できる RDD を構築し、フォレストでトレーニングされたフォレストに必要な機能を構築する方法が必要だと思いますmllib.tree.model.RandomForestModel。

ML ライブラリと MLlib ライブラリの 1 つだけではなく両方が存在する理由を知っている人はいますか?

私の質問を読んでくれてありがとう。解決策や提案を事前にありがとう。

apache-spark - ランダム フォレストを使用した Spark プロセス データフレーム

1 に答える 1

Related

Reference

apache-spark - ランダムフォレストを使用した Spark プロセスデータフレーム