3

tf-idf を使用して項頻度を計算したいと思います。左側の tf-idf 値を取得する式を作成しました。これは正しいです?

の Tf-idf DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT)WORD: inの出現回数DOCUMENT
  • number-of-words(DOCUMENT): 単語数DOCUMENT
  • documents(ALL): データベース内のドキュメント数
  • documents(WORD, ALL): を含むデータベース内のドキュメントの数WORD

お役に立てば幸いです。事前にどうもありがとうございました!

4

1 に答える 1

1

ウィキペディアの記事によると、それは正しいです。ウィキペディアの記事が示唆するように、単なるドキュメント(WORD、ALL)ではなく、1+ドキュメント(WORD、ALL)に変更することをお勧めします。

ウィキペディアの TF-IDF

于 2009-08-22T11:46:34.220 に答える