私は1つを開発しました。
各単語について、この比率を計算します。
(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
(number of words in this text) * (frequency of word in all texts)
キーワードは、比率が最も高い 20% にある単語です (このドキュメントの場合)。
Ankerlは、独自の式も提案しています。
tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)
どこ:
- curVal: スコアリングする単語が分析対象のテキストに存在する頻度
- curWords: 分析対象テキストの総単語数
- allVal: スコア付けする単語がインデックス付きデータセットに存在する頻度
- allWords: インデックス付きデータセットの単語の総数
どちらのアルゴリズムもうまく機能し、結果はしばしば一致します。それをより良くする方法を知っていますか?