0

スパムフィルタリング用のいくつかの分類アルゴリズムの分類パフォーマンスを比較する必要がある実験を行っています。Naive Bayes、SVM、J48、k-NN、RandomForests など。WEKA データ マイニング ツールを使用しています。文献を調べているうちに、大きく2つのタイプに分類できるさまざまな次元削減方法について知るようになりました-

  1. 特徴削減: 主成分分析、潜在意味分析など
  2. 特徴選択: カイ 2 乗、InfoGain、GainRatio など

また、Jose Maria による WEKA のチュートリアルを彼のブログで読みました

このブログで、彼は次のように書いています。それで、次元削減がスパムフィルタリングの場合に役立つかどうか混乱していますか?

さらに、ドキュメント頻度と TF-IDF に関する文献を、特徴削減手法の 1 つとして読みました。しかし、それがどのように機能し、分類中にどのように機能するかはわかりません。

weka、チェーンフィルター、分類器などの使用方法を知っています。私が直面している問題は、機能の選択/削減 (TF-IDF を含む) について十分な考えがないためです。どのように、どの機能を選択するかを決定できません。研究を意味のあるものにするために組み合わせる必要があるテクニックと分類アルゴリズム。また、カイ二乗、情報ゲインなどで使用する必要がある最適なしきい値についてもわかりません。

StringToWordVector クラスには IDFTransform のオプションがありますが、それを TRUE に設定し、InfoGain などの機能選択手法を使用することは理にかなっていますか?

ガイドしてください。可能であれば、次元削減について詳しく学び、実験を有意義に計画できるリソースへのリンクを提供してください。

4

1 に答える 1