1

scikit を使用したこれらの 2 つの手順が類似しているかどうかを理解するのに問題があります。

1) RandomForestClassifier で compute_importance=True を指定し、返された上位 10 個の特徴を手動で選択して、10 個の特徴の新しいトレーニング セットをさらに作成し、トレーニングしてさらに予測します。

2) max_feature=10 compute_importance=True の RandomforestClassifier とさらに rf.fit_transform(train,target) を使用し、さらに rf.fit(train,target)

4

1 に答える 1

0

max_features=1010 個のフィーチャの新しいランダムなサブセットが、分割の候補として全体のセットから選択されることを意味します。つまり、毎回異なる 10 の機能が考慮されています。元の機能のすべてが同じツリーのどこかで使用され、フォレスト全体で使用される可能性があります。最も重要な 10 個の機能を選択して再トレーニングするということは、同じ 10 個の機能がどこでも使用されることを意味し、通常は良い考えではありません。

于 2014-05-12T02:43:55.047 に答える