0

SVD は LSA で潜在的な意味情報を取得するために使用されます。SVD 行列の解釈について混乱しています。

最初に文書用語マトリックスを作成します。次に、SVD を使用して 3 つの行列に分解します。

例えば:

doc-term 行列 M1 は M x N です。ここで、

M = the number of documents
N = the number of terms

そして、M1 は次のように分解されました。

M1 = M2 * M3 * M4, where:

M2: M x k

M3: k x k

M4: k x N

私は以下のような解釈を見ます:

M2の kは、同様のセマンティクスのカテゴリを表します。M4の k行はトピックを表します。

私の質問は次のとおりです。

  1. k が上記のように解釈されるのはなぜですか? セマンティクスとトピックが似ていることをどのように確認できますか?

  2. 同様のセマンティクスがトピックに等しいのはなぜですか?

  3. M2 と M4 で k の解釈が異なる理由

  4. M3をどう解釈する?

私は本当に混乱しています。解釈は完全に恣意的なようです。それが潜在的な意味ですか?

4

1 に答える 1

1

Manning と Schutze による SNLP バイブルの情報検索の章を読むことを強くお勧めします。LSIやSVDについて知りたいことを5ページで解説しています。

次のような段落があります。

ここに画像の説明を入力

于 2014-01-10T03:31:33.757 に答える