text - LSAに関する疑問

Question

参照ドキュメントとリポジトリ内の一連のドキュメントとの類似点を見つけなければなりません。

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows

私の疑問：

私の db には約 7 つのドキュメントがあるため、8*8 varray(document matrix) しか得られません。これらの 8 つの値だけで余弦の類似性を見つけた場合、正しい結果が得られますか?
そのような方法は一般的に採用されていますか？

これをコード化するためにJavaを使用します。jama パッケージを使用して svd を見つけます。

score 0 · Accepted Answer

TMGツールボックスを使用してMatlabで試しました。それは正常に動作します。
より良い結果 (またはより正確な精度) を得るには、より大きなデータセットを使用します。
LSA では、svd はその一部です (次元削減のため)。コサイン類似度を計算するには、この計算の後に得られる最後の行列 A = U * S * V^t が必要になります。

ここで LSA の例を読むことができます

text - LSAに関する疑問

1 に答える 1

Related

Reference