3

キー タームのセットがあり、TF-IDF の重みを、各タームのタグ頻度とターム カウントと共に計算し、データベースに保存しました。

これらの DB 値を使用して、単一の用語が与えられた場合に関連する用語のセットを生成するにはどうすればよいですか?

私は TF-IDF のウィキペディアのページを読み、コサインの類似性や n-gram アルゴリズムなどに関係する多くの Google 検索結果を消費しました。私の得意分野は、線形代数、IR、または微積分ではありません。そのため、これらのドキュメントを理解するのに苦労しています。

TF-IDF の重みと関連性との関係について知りたいです。これらの値をランク付けする方法はありますか? 事前定義された用語の重みに関連してそれらをランク付けする必要がありますか?

これらの番号を取得した後、これらの番号をどのように使用できますか?

4

0 に答える 0