5

http://developer.yahoo.com/search/content/V1/termExtraction.htmlと同じ結果を得る方法

この質問は、以前にかなりの回数尋ねられました。

既存のソリューションでこの問題にアプローチしようとすると、「テキスト分析」Solr は、http: //wiki.apache.org/solr/AnalyzersTokenizersTokenFilters で説明されているように、インデックスを作成する前にドキュメントに対して実行します。これには、ステミングも含まれます。

そのため、最終的な索引は、ドキュメントを説明するために使用される用語の大部分で構成されます。

直接使用するためのアナライザー、トークナイザー、およびトークン フィルターを提供するソリューションはありますか? solrが解決策である場合、solrのインデックスからこのデータを取得する最良の方法は何ですか?

4

2 に答える 2

4

Solr は、カスタム検索エンジンを作成する方法です。仕事に適したツールではないようです。「外部リンク」セクションの用語抽出リストに関するウィキペディアの記事には、用語抽出のためのいくつかの Web アプリケーションがありますOpenNLPには、便利なツールのリストがあります。そのチャンカーが役立つかもしれません。

于 2009-07-09T09:04:15.270 に答える
1

解析された用語を尋ねるだけです。

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

詳細については、 TermsComponent を参照してください。

于 2016-02-29T14:57:40.927 に答える