tf-idf を使用して項頻度を計算したいと思います。左側の tf-idf 値を取得する式を作成しました。これは正しいです?
の Tf-idf DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
WORD
: inの出現回数DOCUMENT
number-of-words(DOCUMENT)
: 単語数DOCUMENT
documents(ALL)
: データベース内のドキュメント数documents(WORD, ALL)
: を含むデータベース内のドキュメントの数WORD
お役に立てば幸いです。事前にどうもありがとうございました!