1

TF-IDF(一般的な英語コーパスと比較して一般的な単語を削除する)を実行することにより、Webページを一意に識別することを目的としたソフトウェアを開発しています。良い無料のコーパス (http://www.wordfrequency.info/top5000.asp) を見つけるのに時間がかかりましたが、このコーパスは頻度と分散しか提供していません。コーパスに含まれるドキュメントの数が表示されないため、IDF テーブルを計算できません。これには、0 ~ 1 の範囲の分散値が含まれます。1 は、単語がすべてのドキュメントに出現することを示します。このデータを使用して同様の IDF テーブルを実現する方法を知っている (または理解できる) 人はいますか? また、私が必要とする情報を含む無料のコーパスを誰かが知っていれば、それも同様にありがたいです。ありがとう

4

1 に答える 1

4
IDF = log (Total Documents in Corpus/Total Documents containing the term)

分散が用語を含むドキュメントの割合である場合log (1/dispersion)、IDF は次のようになります。

于 2011-03-12T17:46:36.923 に答える