13

これは、より「理論的な」質問です。scikit-learnパッケージを使用して、NLPタスクを実行しています。Sklearnは、特徴選択とモデルパラメーターの設定の両方を実行するための多くの方法を提供します。私は最初に何をすべきか疑問に思っています。

単変量特徴選択を使用する場合、最初に特徴選択を実行し、次に選択した特徴を使用して、推定器のパラメーターを調整する必要があることは明らかです。

しかし、再帰的な機能の削除を使用したい場合はどうなりますか?最初にすべての元の特徴を使用してグリッド検索でパラメーターを設定してから、特徴選択を実行する必要がありますか?または、最初に(Estimatorのデフォルトパラメーターを使用して)機能を選択してから、選択した機能を使用してパラメーターを設定する必要がありますか?

あなたが私に与えることができるどんな助けにも前もって感謝します。

編集

私はここで述べたのとほとんど同じ問題を抱えています。その時までに、それに対する解決策はありませんでした。それが今存在するかどうか誰かが知っていますか?

4

1 に答える 1

16

個人的には、RFEはやり過ぎで、ほとんどの場合高すぎると思います。線形モデルで特徴選択を行う場合は、単変量特徴選択を使用します。たとえば、chi2テスト、またはグリッド検索正則化パラメーターを使用したL1またはL1 + L2正則化モデル(通常は名前付きCまたはalphasklearnモデル)を使用します。

多くのサンプルで非常に非線形な問題が発生する場合はRandomForestClassifierExtraTreesClassifierGBRTモデルとグリッド検索パラメーターの選択(おそらくOOBスコア推定を使用)を試して、compute_importancesスイッチを使用して重要度による特徴のランク付けを見つけ、それを特徴選択に使用する必要があります。

サンプル数が少ない非常に非線形な問題の場合、解決策はないと思います。あなたは神経科学をしているに違いありません:)

于 2012-09-18T08:22:52.430 に答える