tf-idf - IDFの計算方法は？

Question

このウェブサイトでTF/IDFを手伝ってくれてありがとう。これは、Javaでtf-idf関数を作成するのに大いに役立ちました。私はtfを作成しましたが、1つ質問があります。ウィキのように、彼らが書いたIDFは、いくつの文書がその用語を持っているかを計算することができます。しかし、私は混乱しています。

たとえば、「JosAH isgreat。JoshAHrocks」という文字列があるため、TFは2/5になり、IDFの場合は2つのドキュメントがあり、各ドキュメントにはJoshAHの用語が含まれています。では、その用語が他のドキュメントで発生するかどうかだけを確認するのでしょうか、それとも他のドキュメントで何回発生するのかを確認するのでしょうか。

score 1 · Accepted Answer

私はあなたがここで何を尋ねるか完全にはわかりません。とにかく、IDF ---逆ドキュメント頻度---の目的は、非常に頻繁な用語のスコアを弱め、まれな用語のスコアを上げることです。

2つのドキュメントのコレクションでは、「JosAH」のIDFは0になります---すべてのドキュメントで発生するためです。

score 0 · Accepted Answer

ドキュメントの頻度は、「用語を含むコレクション内のドキュメントの数」（「情報検索の概要」から）であるため、前者のオプションでは、「その用語が出現するかどうかを確認してください」。

tf-idf - IDFの計算方法は？

2 に答える 2

Related

Reference