参照ドキュメントとリポジトリ内の一連のドキュメントとの類似点を見つけなければなりません。
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
私の疑問:
私の db には約 7 つのドキュメントがあるため、8*8 varray(document matrix) しか得られません。これらの 8 つの値だけで余弦の類似性を見つけた場合、正しい結果が得られますか?
そのような方法は一般的に採用されていますか?
これをコード化するためにJavaを使用します。jama パッケージを使用して svd を見つけます。