まず、私の質問を読んでくれてありがとう。
TF/IDFを使用しました次に、それらの値について、コサイン類似度を計算して、より類似しているドキュメントの数を確認しました。次のマトリックスを見ることができます。列名はdoc1、doc2、doc3のようであり、行名はdoc1、doc2、doc3などのようです。次のマトリックスを使用すると、doc1とdoc4の類似性が72%(0.722711142)であることがわかります。両方の文書が似ているのを見ても正しいです。1000のドキュメントがあり、各ドキュメントの頻度を確認できます。それらの数が類似していることを確認するためにマトリックスで。k-meansやagnes(階層)などのさまざまなクラスタリングを使用してそれらを組み合わせました。それはクラスターを作りました。たとえば、Cluster1には(doc4、doc5、doc3)becozがあり、それぞれ値(0.722711142、0.602301766、0.69912109)が近くなっています。しかし、これら3つのドキュメントが実際に同じであるかどうかを手動で確認すると、そうではありません。:
1 0.067305859 -0.027552299 0.602301766 0.722711142
0.067305859 1 0.048492904 0.029151952 -0.034714695
-0.027552299 0.748492904 1 0.610617214 0.010912109
0.602301766 0.029151952 -0.061617214 1 0.034410392
0.722711142 -0.034714695 0.69912109 0.034410392 1
PS:値は間違っている可能性があります、それはあなたにアイデアを与えるためだけです。ご不明な点がございましたら、お問い合わせください。ありがとう