200 個のサンプルがあり、それぞれに 60 個の機能があります。PCA を使用して主成分を見つけます。ニューラルネットワークを使ってk最近傍も試してみましたが、分類結果は良くありません。いくつかのサンプルを取り出してもかまいませんが、どのサンプルが分類結果を破壊するかをどのように判断できますか? 1つずつ試すことができることはわかっていますが、非常に効果的ではありません. 助けてください
2 に答える
1
いくつかのサンプルを捨てる代わりに、いくつかの属性を捨てる必要があります。
PCA は、dxd エントリで行列を計算します。60 の属性で、このマトリックスには 3600 のエントリがあります。この行列の内容を計算するためのサンプルは 200 個しかありません。結果がほぼランダムであることは不思議ではありません。より少ない変数とより多くのデータが必要です。
于 2012-07-13T12:32:56.700 に答える
0
これは古典的な機械学習の問題です。200 個のサンプルしかないこのような多数の機能 (この場合は 60 個) には常にリスクがあります。冗長な機能がないかどうかを確認してください。例を挙げましょう
次の特徴から住宅価格を予測する必要があると想像してみてください。
ここで、番号 2 と番号 4 の機能はどちらも同じ情報を提供し、重複していることに注意してください。最初はそれほど邪魔に見えません。ただし、そのようなデータがある場合は、それらの機能を削除することをお勧めします。
したがって、最初に機能を調べてからデータを調べることをお勧めします。詳細については、コースラで利用可能なスタンフォード大学の機械学習クラス (Ng 教授による) をご覧ください。
于 2012-07-13T09:05:23.320 に答える