0

私は文書分類プロジェクトに取り組んでいます。私は tf-idf と重心アルゴリズムを使用しています。しかし、そのアルゴリズムを使用するには、辞書が必要です。辞書作成のための情報取得を試みましたが、十分ではないと思います。情報獲得よりも優れた特徴選択アルゴリズムについて何か提案はありますか?

4

2 に答える 2

2

私の経験では、最適な機能選択方法などというものはありません。あるデータセットではうまく機能するアルゴリズムでも、他のデータセットではうまく機能しない可能性があるため、ほとんどが実験的な問題です。いくつか試してみて、問題の設定に適したものを確認してください。George Formanは、このテーマに関するいくつかの記事を公開しています。時間があるときに読む価値があります。

于 2013-01-03T09:53:28.503 に答える
1

多くの場合、機能の選択は必要ないことも指摘しておく価値があります。大きな特徴空間に対して堅牢な分類器 (たとえば、線形 SVM/L1 正則化ロジスティック回帰) を使用して、すべての単語を使用するだけです。解決すべき問題が 1 つ少なくなり、使用しないことを明示的に正当化する必要があるベースラインになります。

于 2013-01-04T16:39:03.943 に答える