1

いくつかのテキスト分類タスクで sklearn.svm.SVC を試しています。SVM でモデル化する前に機能選択を実行することは、機能の完全なセットが使用されたときにパフォーマンスが通常ピークに達するため、多少疑問があることを理解しています。これは、異なる機能選択方法がどのように機能をランク付けするかを見ることは、学術的な観点からも興味深いものです。

いろいろ調べてみたところ、sklearn で利用できる機能選択メトリクスは非常に限られていることがわかりました。つまり、Chi-2 です。IG や BNS などの他の一般的に使用されるメトリックが、sklearn.feature_selection.SelectKBest() でスコア関数として直接使用できる sklearn (または他の場所) に実装されているかどうか疑問に思っています。

親切なアドバイスをいただきありがとうございます。

4

1 に答える 1

2

InfoGain はまだ実装されていませんが、@larsmans は将来のある時点でそれを含めたいと考えています。BNSについてはわかりません。

ご希望の方はお気軽に寄稿ください。貢献ガイドは次のとおりです。

http://scikit-learn.org/dev/developers/index.html

于 2013-01-25T08:49:34.923 に答える