parsing - 用語抽出: テキストからタグを生成

Question

http://developer.yahoo.com/search/content/V1/termExtraction.htmlと同じ結果を得る方法

この質問は、以前にかなりの回数尋ねられました。

既存のソリューションでこの問題にアプローチしようとすると、「テキスト分析」Solr は、http: //wiki.apache.org/solr/AnalyzersTokenizersTokenFilters で説明されているように、インデックスを作成する前にドキュメントに対して実行します。これには、ステミングも含まれます。

そのため、最終的な索引は、ドキュメントを説明するために使用される用語の大部分で構成されます。

直接使用するためのアナライザー、トークナイザー、およびトークンフィルターを提供するソリューションはありますか? solrが解決策である場合、solrのインデックスからこのデータを取得する最良の方法は何ですか?

score 4 · Accepted Answer

Solr は、カスタム検索エンジンを作成する方法です。仕事に適したツールではないようです。「外部リンク」セクションの用語抽出リストに関するウィキペディアの記事には、用語抽出のためのいくつかの Web アプリケーションがあります。OpenNLPには、便利なツールのリストがあります。そのチャンカーが役立つかもしれません。

score 1 · Accepted Answer

解析された用語を尋ねるだけです。

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

詳細については、 TermsComponent を参照してください。

parsing - 用語抽出: テキストからタグを生成

2 に答える 2

Related

Reference