テキスト文書をクラスタリングしています。私はtf-idfとコサイン類似度を使用しています。しかし、これらの手段を使用していても、よくわからないことがあります。tf-idf の重みは、2 つのドキュメント間の類似度の計算に影響しますか?
次の 2 つのドキュメントがあるとします。
1-高い木。
2- 高い木 高い木 高い木 高い木。
この場合、2 つのドキュメントの tf-idf ベクトルは異なりますが、2 つのドキュメント間の類似度は 1 になります。通常、2 番目の文書は、最初の文書と比較して用語の重みを高くする必要があります。
2 つのベクトルの重みが次のようになっているとします (仮定します)。
v1(1.0、1.0)
v2(5.0、8.0)
コサイン類似度を計算すると、1.0 が得られます。
これは、同じ項を共有するが重みが異なる 2 つのランダム ベクトルのスケッチです。
ベクトルの間には明らかな天使が存在するので、ウェイトが役割を果たすはずです!
これは、tf/idf の重みが類似度計算のどこで役割を果たすのかという疑問を引き起こします。ここまででわかったのは、ここでの類似性は用語の有無だけを気にするということです。