私は書かれたテキストに関連する分類タスクに取り組んでいますが、分類結果を改善するために何らかの「機能選択」手順を実行することがどれほど重要か疑問に思っています。
私は主題に関連する多くの機能 (約 40) を使用していますが、すべての機能が本当に関連しているかどうか、およびどの組み合わせであるかはわかりません。私は SVM (scikits) と LDAC (mlpy) を試しています。
関連する機能と無関係な機能が混在している場合、分類結果が不十分になると思います。分類の前に「機能選択手順」を実行する必要がありますか?
Scikits には、機能をランク付けできるツリーベースの RFE 手順があります。最も重要な特徴を選択し、SVM (非線形) または LDAC で実際の分類を実行するために、ツリーベースの RFE で特徴をランク付けすることは意味がありますか? それとも、同じ分類器を使用して機能をランク付けするある種のラッパー メソッドを実装する必要がありますか (機能の異なるグループで分類しようとすると、非常に時間がかかります)。