Spark 1.5.1への回答 である MLLib Random Forest Probabilityを使用して、 を使用してランダム フォレストをトレーニングし、トレーニングされたランダム フォレストでホールドアウト データフレームを処理することができましml.classification.RandomForestClassifier
た。
私が抱えている問題は、このトレーニングされたランダム フォレストを保存して、将来 (トレーニング セットと同じ機能を持つ) データフレームを処理したいということです。
このページの分類例では を使用しmllib.tree.model.RandomForestModel
て、トレーニング済みのフォレストを保存する方法を示していますが、私の理解では、LabeledPoint
RDD でのみトレーニング (および将来的に処理) できます。私が RDD で抱えている問題LabeledPoint
は、これにはラベル double と特徴ベクトルのみを含めることができるため、他の目的に必要な非ラベル/非特徴列がすべて失われることです。
ml.classification.RandomForestClassifie
したがって、 rの結果を保存するかLabeledPoint
、ラベル以外の列を保持できる RDD を構築し、フォレストでトレーニングされたフォレストに必要な機能を構築する方法が必要だと思いますmllib.tree.model.RandomForestModel
。
ML ライブラリと MLlib ライブラリの 1 つだけではなく両方が存在する理由を知っている人はいますか?
私の質問を読んでくれてありがとう。解決策や提案を事前にありがとう。