KNN を使用して手書きの数字を分類しています。また、次元を削減するために PCA を実装しました。256 から 200 になりました。しかし、約 0.10% の情報損失に気付くだけです。56次元を削除しました。損失の方が大きいのではないですか?5 次元に落とした場合にのみ、最大 20% の損失が発生します。これは正常ですか?
2 に答える
56のディメンションを削除した後、ほとんど情報が失われなかったと言っていますか?もちろん、それがPCAのポイントです!主成分分析は、その名前が示すように、どのディメンションが情報を保持しているかを判断するのに役立ちます。そして、あなたはそれの最大の部分を作る残りを取り除くことができます。
いくつかの例が必要です。遺伝子分析では、PCAを使用して次元を40,000から100に減らした論文を読んだ後、魔法のようなことを行い、19次元の優れた分類子を持っています。これは、39'900のディメンションを削除したときに、事実上情報が失われていないことを暗黙的に示しています。
それは正常です、はい (フェズベスがあなたのしたことの要点を言ったように)。あなたのケースは、実際にそれがどのように可能であるかを見ることができる良い例です。
データを見てください (機械学習では常に重要です。データを知ってください)。白地に黒の手書き数字の画像がある場合、一部の角のピクセルがすべてのサンプルで白である可能性が高くなります (手書きの数字で機械学習を行ったときに、1 つの角に白がありました)。そのため、実際にはそのピクセルにはまったく情報がありません。それを KNN や ANN などの入力としてドロップすると、同じ結果が得られます。