PCAは、データセットのどの機能が最も重要であるかを教えてくれませんが、どの機能の組み合わせが最も分散を維持しているかを教えてくれません。
PCAがデータセットを回転させて、データセットの次元を減らすために、最初の次元に沿って最も分散が大きく、2番目に最も分散が大きいという事実をどのように使用できますか?
つまり、より詳細には、特徴ベクトルを分散の大部分を保持する低次元表現に変換するために最初のN個の固有ベクトルをどのように使用するのでしょうか。
PCAは、データセットのどの機能が最も重要であるかを教えてくれませんが、どの機能の組み合わせが最も分散を維持しているかを教えてくれません。
PCAがデータセットを回転させて、データセットの次元を減らすために、最初の次元に沿って最も分散が大きく、2番目に最も分散が大きいという事実をどのように使用できますか?
つまり、より詳細には、特徴ベクトルを分散の大部分を保持する低次元表現に変換するために最初のN個の固有ベクトルをどのように使用するのでしょうか。
各行がデータセットからのベクトルである行列にしX
ます。N x d
X_{n,:}
次にX'X
、 は共分散行列であり、固有分解によりX'X=UDU'
、U
はd x d
固有ベクトルの行列でありU'U=I
、は固有値D
のd x d
対角行列です。
固有分解の形式は、U'X'XU=U'UDU'U=D
データセットを で変換するとU
、新しいデータセットXU
が対角共分散行列を持つことを意味します。
固有値が最大から最小の順に並べられている場合、これは、最初に変換された特徴 (式 で与えられるU_1'X'XU_1=\sum_n (\sum_d U_{1,d} X_{n,d})^2
) の平均二乗値が 2 番目よりも大きく、2 番目が 3 番目よりも大きくなるということも意味します。
データセットの特徴を最大の平均値から最小の平均値の順に並べると、平均値が小さい特徴を取り除くだけで (大きな平均値の相対的なサイズは小さな平均値よりもはるかに大きくなります)、次のようになります。多くの情報を失っていません。それがコンセプトです。