2

私は、サンプル サイズが 30 で特徴サイズが 80 である現実世界の問題に対して、2 つの特徴選択アルゴリズムに取り組んでいます。最初のアルゴリズムは、SVM 分類器を使用したラッパー フォワード特徴選択であり、2 つ目は、ピアソン積率相関を使用したフィルター特徴選択アルゴリズムです。係数とスピアマンの順位相関係数。これら 2 つのアルゴリズムによって選択された機能はまったく重複していないことがわかります。それは合理的ですか?実装で間違いを犯したということですか?ありがとうございました。参考までに、Libsvm + matlab を使用しています。

4

2 に答える 2

2

どちらの戦略も同じ表現力を持っていないため、間違いなく発生する可能性があります。

予測に最適な機能サブセットが必要な場合はラッパーを信頼し、出力/予測変数にリンクされているすべての機能が必要な場合は相関を信頼します。これらのサブセットは、特に冗長な機能が多数ある場合は、まったく異なる可能性があります。

上位の相関機能を使用することは、機能と出力/予測変数の間の関係が線形である (または、Spearman の順位相関の場合は少なくとも単調である) こと、および機能が互いに統計的に独立していることを前提とする戦略です。互いに「相互作用」します。これらの仮定は、現実世界の問題で最も頻繁に破られます。

相関、または相互情報量などの他の「フィルター」は、考慮する機能を決定するよりも、機能を除外するか、考慮しない機能を決定するために使用する方が適切です。最初の機能数が非常に多い (数百、数千) 場合は、後続のラッパー アルゴリズムの作業負荷を軽減するためにフィルターが必要です。

于 2013-11-04T07:05:42.860 に答える
0

データの分布に応じて、スピアマンまたはピアソンを使用できます。後者は正規分布に使用され、前者は非正規分布に使用されます。分布を見つけて、適切なものを使用します。

于 2015-06-06T13:29:05.487 に答える