5

訓練サンプルの数と訓練データの次元との関係はどうあるべきですか?

たとえば、16000 個の特徴を持つ 20000 個のトレーニング サンプルがあるとします。PCA を使用して次元削減を行うケースを検討していますが、トレーニング データを何次元に削減すればよいかわかりません。これらの間に関係はありますか?2 つのクラスと線形カーネルを持つサポート ベクター マシン分類器を使用しています。

4

2 に答える 2

4

SVM によって検出された解は、サンプルがまたがる空間に自動的に制限されるため、PCA を使用して分散がゼロの次元を取り除くだけでは、解は変わりません。また、damienfrancois が書いているように、それ以上に削減すると、関連する情報が破壊される危険があります。これを回避するには、次の 2 つのオプションがあります。

1)構造的リスクの最小化は興味深い理論的概念であるだけでなく、アプリケーションにとって正しいことを行い、データをそのまま使用することを信じてください。

2)特徴選択アルゴリズムを使用して、実際に有益な特徴/組み合わせを見つけます。ただし、機能の最適な組み合わせを見つけることは、非常に多くの機能に対して明らかに実行可能ではないため、機能を個々のパフォーマンス (線形の場合: t スコア) で並べ替えてから、必要な最適な機能の数をテストすることができます。良い結果を得るために。

Zaw Lin のコメントはもちろん正しいです。このような高次元空間でいつでもクラスを分離できますが、同様に、もちろん分類器のパフォーマンスはトレーニング データではなく、たとえばクロス検証を使用して評価する必要があります。

于 2013-11-06T18:26:07.577 に答える