data-mining - コサイン類似度の理解を深める

Question

テキストマイニングとデータマイニングについて少し調べています。コサインの類似性を理解するには、もっと助けが必要です。私はそれについて読みましたが、インターネット上のすべての例は、コサイン類似度を介して計算する前に tf-idf を使用していることに気付きました。

私の質問

データセットとなるテキストファイルから最高度数分布を使うだけでコサイン類似度を計算することは可能ですか？私が経験したほとんどのビデオとチュートリアルでは、データをコサイン類似度に入力する前に tf-idf を実行しました。そうでない場合、コサイン類似度に入力できる他のタイプの方程式/アルゴリズムは何ですか?

2. コサイン類似度を計算するために tf-idf で正規化が使用されるのはなぜですか? (正規化せずにできますか?) コサイン類似度は、tf-idf 出力の正規化から計算されます。なぜ正規化が必要なのですか？

3. tf-idf の重みに対して実際にどのようなコサイン類似度が行われますか?

data-mining - コサイン類似度の理解を深める

1 に答える 1

Related

Reference