3

文字列から関連性のあるキーワードを効率的に抽出するにはどうすればよいですか? キーワードのリストは事前定義されています。たとえば、バラク・オバマについても言及しているミシェル・オバマに関する記事では、より高い関連性値を取得するキーワードを使用してMichelle Obamaandを抽出したいと考えています (キーワード リストにはとの両方が含まれています)。Barack ObamaMichelle ObamaMichelle ObamaBarack Obama

各キーワードの出現回数を文字列でチェックするのはあまり効率的ではないようです。私のアプリケーションは PHP で開発されていますが、これを効率的に行うことができれば、どの言語でも構いません。

OpenCalais を試しましたが、ほとんどのキーワードが検出されません。Lucene を使用してキーワードを抽出することは可能ですか?

4

1 に答える 1

1

apache lucene パッケージが適しています。ただし、タイトルと段落がある場合は、ストップ ワードを除外し、タイトル内の単語のランクを高くしてから、段落内の単語またはその形式を一致させることができます。自分でより適切にプログラミングするために、いくつかのテキスト要約記事を参照できます。

于 2011-03-01T09:20:35.967 に答える