データセットは、N 個の要素と K 個の変数で構成されます。PCA を使用すると、変数の数を減らすことができますが、K 個の変数のうちどれが最も多くの情報を提供したかを確認するにはどうすればよいでしょうか?
たとえば、次のようなデータセットがあります。
1 1 1 2
2 2 1 4
3 3 2 11
1 1 2 7
2 2 3 14
3 3 3 16
1 1 4 17
2 2 4 19
3 3 3 16
1 列目は 2 列目と同じで、4 列目は 2*1st+5*3rd-5 の関係によって決定されます。したがって、1 列目と 3 列目はほとんどの情報を提供し、残りは追加情報を提供しません。しかし、PCA を使用してこれをどのように計算するのでしょうか?