文字列から関連性のあるキーワードを効率的に抽出するにはどうすればよいですか? キーワードのリストは事前定義されています。たとえば、バラク・オバマについても言及しているミシェル・オバマに関する記事では、より高い関連性値を取得するキーワードを使用してMichelle Obama
andを抽出したいと考えています (キーワード リストにはとの両方が含まれています)。Barack Obama
Michelle Obama
Michelle Obama
Barack Obama
各キーワードの出現回数を文字列でチェックするのはあまり効率的ではないようです。私のアプリケーションは PHP で開発されていますが、これを効率的に行うことができれば、どの言語でも構いません。
OpenCalais を試しましたが、ほとんどのキーワードが検出されません。Lucene を使用してキーワードを抽出することは可能ですか?