SVD は LSA で潜在的な意味情報を取得するために使用されます。SVD 行列の解釈について混乱しています。
最初に文書用語マトリックスを作成します。次に、SVD を使用して 3 つの行列に分解します。
例えば:
doc-term 行列 M1 は M x N です。ここで、
M = the number of documents
N = the number of terms
そして、M1 は次のように分解されました。
M1 = M2 * M3 * M4, where:
M2: M x k
M3: k x k
M4: k x N
私は以下のような解釈を見ます:
M2の k列は、同様のセマンティクスのカテゴリを表します。M4の k行はトピックを表します。
私の質問は次のとおりです。
k が上記のように解釈されるのはなぜですか? セマンティクスとトピックが似ていることをどのように確認できますか?
同様のセマンティクスがトピックに等しいのはなぜですか?
M2 と M4 で k の解釈が異なる理由
M3をどう解釈する?
私は本当に混乱しています。解釈は完全に恣意的なようです。それが潜在的な意味ですか?