私は PCA を読み込もうとしていますが、目的は分散を最大化することであることがわかりました。理由がよくわかりません。他の関連トピックの説明は役に立ちます
4 に答える
分散は、持っているデータの「変動性」の尺度です。コンポーネントの数は無限である可能性があります (実際には、@jazibjamil が指摘したように、数値化後は最大で行列のランクに等しくなります)、作成する有限セットの各コンポーネントのほとんどの情報を「絞り込む」必要があります。 .
誇張するために、単一の主成分を選択する場合は、可能な限り最大の変動性を説明する必要があります。したがって、最大の分散を検索して、1 つの成分がデータセットから最も多くの「一意性」を収集するようにします。
PCA は実際にはデータの分散を増加させないことに注意してください。むしろ、データセットが最も広がっている方向を主軸に揃えるようにデータセットを回転させます。これにより、データがほぼ平坦なディメンションを削除できます。これにより、ポイント間の分散 (または広がり) を可能な限り元に近づけながら、データの次元が減少します。
成分ベクトルの分散を最大化することは、それらのベクトルの「一意性」を最大化することと同じです。したがって、ベクトルは互いにできるだけ離れています。そうすれば、最初の N 個のコンポーネント ベクトルのみを使用すると、同様のベクトルよりも大きく変化するベクトルでより多くのスペースをキャプチャできます。主成分が実際に何を意味するのか考えてみてください。
たとえば、3D 空間で直交する 2 つの線がある状況を考えてみましょう。平行 (またはほぼ平行) の 2 本の線よりも、直交する線の方が環境をより完全に捉えることができます。非常に少数のベクトルを使用して非常に高次元の状態に適用すると、維持するベクトル間の関係がより重要になります。線形代数の意味では、独立した行を PCA によって生成する必要があります。そうしないと、それらの行の一部が冗長になります。
基本的な説明については、プリンストンの CS 部門のこの PDF を参照してください。