4

8 つのパラメーター (4 つの連続的な 4 つのカテゴリ) を含むデータセットがあり、Scikit の RFEC クラスに従って機能を削除しようとしています。

これは私が使用している式です:

svc = SVC(kernel="linear")
rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(y, 2),
          scoring='accuracy')
rfecv.fit(X, y)

カテゴリデータもあるので、dmatrics (Patsy) を使用してダミー変数に変更しました。

SVC とともにモデルを改善するために、特徴選択後にデータに対してさまざまな分類モデルを試したいと考えています。

データを変換した後に RFE を実行しましたが、間違っていると思います。
カテゴリ データを変換する前または後に RFECV を実行しますか?

どの文書にも明確な兆候が見つかりません。

4

1 に答える 1

2

カテゴリ変数の特定の値を選択するか、変数全体を選択するかによって異なります。現在、カテゴリ変数の単一の設定 (別名レベル) を選択しています。変数全体を選択するには、SVC に基づいて独自の推定器を定義して、少しハッカーを行う必要があるでしょう。できますが、パイプラインを入力形状を反映するものmake_pipeline(OneHotEncoder(categorical_features), SVC())に設定する必要があります。coef_

于 2015-04-09T13:21:13.243 に答える