-1

テキストを検索してキーワードを検索できるアルゴリズムを考えようとしています。たとえば、単語の配列があります。

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

「Andy、Murray、David、Ferrer、Sunday、Open、Final」などの重要な単語を選びたいのですが、英語の技術的な側面に関する知識が限られているため、無視すべき単語の種類がわかりません。

あなたが提案できるテキストからタグを見つける他の良い方法はありますか? /私が無視すべき単語の種類を知っていますか など

ps私はすべてのコードがC ++であることを望みますが、それは要件ではありません:)

4

1 に答える 1

3

情報検索の分野でこれを行うための古典的な方法は、tf-idf モデルを使用することです。

  • tf コンポーネントは、ドキュメント/センテンスで各用語が繰り返される回数を示します。テキスト内での重要性を示すため、「より良い」ほど多くなります。
  • idf コンポーネントは、コレクション内にこの用語が含まれる文書の数を示します。この数値が小さいほど、単語の重要性が高くなります (テキストにまれな単語が表示される場合、この単語を使用してこの文書を分割するのに役立つため)直感的には、他の単語よりもはるかに優れています-「the」という単語はドキュメントについて何も言わない可能性が高く、idf値はその重みが小さいことを確認します)。
于 2013-03-31T14:34:34.597 に答える