TF-IDF を使用したコサイン類似度法を使用して、2 つの単語の意味的類似度を取得したいと考えています。そのために、最初にウィキペディアまたはワードネットからこれらの単語の意味を取得したいと考えています。その後、テキストを前処理して TF-IDF を見つけたいと考えています。問題をググったところ、TF-IDF を見つけるには、トレーニング セットとテスト セットが必要であることがわかりました。私の場合、どちらが列車セットでどちらがテスト セットですか? 計算結果を使用してコサイン類似度を計算するにはどうすればよいですか?
質問する
1764 次
1 に答える
0
トレーニング フェーズでは、TF-IDF で重みを見つけます。これは、ドキュメントとすべてのドキュメントの特定の単語の頻度に基づいて計算されます。すべての重みを取得したら、各ドキュメントを N 個の単語のベクトルに変換したことになります。
ここで、2 つのドキュメント i と j が与えられ、コサイン関数によってそれらの類似度を計算します。2 つのベクトルのコサイン類似度は、それらの大きさに対するドット積によって計算されます。詳細については、こちらをご覧ください。
于 2012-10-05T19:38:06.440 に答える