extract - テキスト内の語句検索

Question

用語とフレーズのデータベースがあります。
それらの用語/フレーズがテキストに存在する場合、それが何に関連しているかがわかります。オンラインで入手できる2つのAPIで実行できます
http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
しかし、結果は私が望むものではありません。
非常に洗練された方法 (リソースを集中的に使用しない方法) で実行できることが直感的にわかります
。ここに問題があります。これを迅速に行う方法を理解できず、リソースへの負担が非常に少ない (CPU とメモリ)
用語/フレーズは数百万単位であり、テキスト文字列も同様です。PHP は私がよく知っている唯一の言語です。ご提案いただきありがとうございます。

score 0 · Accepted Answer

luceneを使用して、ドキュメントから用語を抽出し、データベースと照合することができます。私の知る限り、lucene用のPHP / Zend API/Portがあります。

Javaでluceneを使用してこれを行う方法についても同様の質問があります。これはあなたを正しい方向に向けるはずです：小さなテキストでの効果的な検索

extract - テキスト内の語句検索

1 に答える 1

Related

Reference