私はニューラルネットワークに取り組んでおり、ドキュメントとその中のtf-idfの値を持つさまざまな用語を介して構築された用語-ドキュメント行列の次元を減らすために、PCAを適用する必要があります。このようなもの
Term 1 Term 2 Term 3 Term 4. ..........
Document 1
Document 2 tfidf values of terms per document
Document 3
.
.
.
.
.
PCAは、データの平均を取得し、その平均を減算してから、共分散行列に次の式を使用することで機能します。
行列Mを次元NxNの用語ドキュメント行列とします。
共分散行列は次のようになります
( M x transpose(M))/N-1
次に、固有値と固有ベクトルを計算して、ニューラルネットワークの特徴ベクトルとしてフィードします。私が理解できないのは、共分散行列の重要性と、共分散を見つけるための次元です。
単純な2次元X、Yを考えれば理解できるからです。ここではどの次元が相関していますか?
ありがとうございました