3

一連のテキスト (書籍、記事、ドキュメントなど) が与えられた場合、各テキストに関連するキーワードをどのように見つけますか? 常識的には、次のことをお勧めします。

  • 分割単語
  • 一般的な単語を除外する (「a、to、for、in」などのストップ ワードとも呼ばれる)
  • 単語の頻度を数える
  • ドキュメント内および他のドキュメント内の各単語の頻度、ドキュメントの単語数、およびすべてのドキュメントの合計単語数を考慮した式を使用して、各単語にスコアを付けます

問題は、それを行うための適切な公式はどれかということです。

4

1 に答える 1

7

私は1つを開発しました。

各単語について、この比率を計算します。

(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

キーワードは、比率が最も高い 20% にある単語です (このドキュメントの場合)。

Ankerlは、独自の式も提案しています。

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

どこ:

  • curVal: スコアリングする単語が分析対象のテキストに存在する頻度
  • curWords: 分析対象テキストの総単語数
  • allVal: スコア付けする単語がインデックス付きデータセットに存在する頻度
  • allWords: インデックス付きデータセットの単語の総数

どちらのアルゴリズムもうまく機能し、結果はしばしば一致します。それをより良くする方法を知っていますか?

于 2013-03-13T18:13:48.887 に答える