このウェブサイトでTF/IDFを手伝ってくれてありがとう。これは、Javaでtf-idf関数を作成するのに大いに役立ちました。私はtfを作成しましたが、1つ質問があります。ウィキのように、彼らが書いたIDFは、いくつの文書がその用語を持っているかを計算することができます。しかし、私は混乱しています。
たとえば、「JosAH isgreat。JoshAHrocks」という文字列があるため、TFは2/5になり、IDFの場合は2つのドキュメントがあり、各ドキュメントにはJoshAHの用語が含まれています。では、その用語が他のドキュメントで発生するかどうかだけを確認するのでしょうか、それとも他のドキュメントで何回発生するのかを確認するのでしょうか。