nlp - TF-IDF の計算方法

Question

TF-IDF を使用したコサイン類似度法を使用して、2 つの単語の意味的類似度を取得したいと考えています。そのために、最初にウィキペディアまたはワードネットからこれらの単語の意味を取得したいと考えています。その後、テキストを前処理して TF-IDF を見つけたいと考えています。問題をググったところ、TF-IDF を見つけるには、トレーニングセットとテストセットが必要であることがわかりました。私の場合、どちらが列車セットでどちらがテストセットですか? 計算結果を使用してコサイン類似度を計算するにはどうすればよいですか?

score 0 · Accepted Answer

トレーニングフェーズでは、TF-IDF で重みを見つけます。これは、ドキュメントとすべてのドキュメントの特定の単語の頻度に基づいて計算されます。すべての重みを取得したら、各ドキュメントを N 個の単語のベクトルに変換したことになります。

ここで、2 つのドキュメント i と j が与えられ、コサイン関数によってそれらの類似度を計算します。2 つのベクトルのコサイン類似度は、それらの大きさに対するドット積によって計算されます。詳細については、こちらをご覧ください。

nlp - TF-IDF の計算方法

1 に答える 1

Related

Reference