3

私は書かれたテキストに関連する分類タスクに取り組んでいますが、分類結果を改善するために何らかの「機能選択」手順を実行することがどれほど重要か疑問に思っています。

私は主題に関連する多くの機能 (約 40) を使用していますが、すべての機能が本当に関連しているかどうか、およびどの組み合わせであるかはわかりません。私は SVM (scikits) と LDAC (mlpy) を試しています。

関連する機能と無関係な機能が混在している場合、分類結果が不十分になると思います。分類の前に「機能選択手順」を実行する必要がありますか?

Scikits には、機能をランク付けできるツリーベースの RFE 手順があります。最も重要な特徴を選択し、SVM (非線形) または LDAC で実際の分類を実行するために、ツリーベースの RFE で特徴をランク付けすることは意味がありますか? それとも、同じ分類器を使用して機能をランク付けするある種のラッパー メソッドを実装する必要がありますか (機能の異なるグループで分類しようとすると、非常に時間がかかります)。

4

2 に答える 2

1

クロス検証で測定された分類スコアが向上するかどうかを試してみてください。また、RFE を試す前に、一変量 chi2 機能選択などの CPU 負荷の低いスキームを試してみます。

于 2012-03-12T08:16:22.493 に答える
0

40 の機能を持つことはそれほど悪くありません。一部の機械学習は、無関係な機能によって妨げられますが、多くのものはそれらに対して非常に堅牢です (単純ベイズ、SVM、決定木など)。さらに多くの機能を追加することにしない限り、おそらく機能の選択を行う必要はありません。

役に立たない機能を捨てるのは悪い考えではありませんが、特別な動機がない限り、それを試すために自分の精神的な時間を無駄にしないでください.

于 2012-10-31T16:02:52.117 に答える