0

大規模なデータ マイニング ベンチマーク調査のコンテキストで、9 つのデータ セットで 15 のアルゴリズムを比較し、全体で 135 のアルゴリズム/データセットの組み合わせにつながります。この研究はWEKAを使用して行われます。

私の最後の分析は、機能選択の影響に関するものです。完璧な特徴選択アルゴリズムなどというものは存在しないことは承知していますが、最適な選択は、展開するアルゴリズムとそれが適用されるデータ セットの両方に依存します。

組み合わせごとに最適な特徴選択アルゴリズムを見つけるには問題が大きすぎますが、一般的に良いパフォーマンスを示すと考えられるもの、いわば「オールラウンダー」を探しています。これまでのところ、CFS (相関ベースの特徴選択)、ReliefFおよび一貫性ベースのサブセット評価( Hall / Holmes 2002) の推奨事項が一般的に良い選択であることがわかりました。相関係数など) は静かに有効であることが証明されました (Guyon / Ellissef 2003)。

どの方法を使用するか、または実際にどの方法を使用するかを示す他の研究の良いベンチマーク研究はありますか?

4

1 に答える 1

0

テキスト分類の観点からは、Yang らによる記事が 1 つあります。異なる特徴選択アルゴリズムの比較 (カイ 2 乗、文書頻度、および情報ゲイン)。

テキストに焦点を当てていますが(つまり、ドキュメントの頻度はまったく当てはまりません)、機能の性質に応じて(つまり、バイナリかどうか、常に存在するなど)、他のものも含まれる可能性があります。

これが役立つことを願っています。

于 2013-09-18T11:26:57.063 に答える