最も一般的なインデックス付きの単語をSolrに照会するにはどうすればよいですか?たとえば、ドキュメントごとに次のフィールドを指定します。
- 光るものすべてが金であると確信している女性がいます。
- 金は銀よりも価値があります。
- 女性は金のブレスレットを身に着けています。
Solrに、任意の形式で次の出力を返してもらいたいと思います。
- ゴールド(3)
- 女性(2)
- (2)//ストップワードであるため、これは実際には必要ありません
- ..。
ありがとう。
最も一般的なインデックス付きの単語をSolrに照会するにはどうすればよいですか?たとえば、ドキュメントごとに次のフィールドを指定します。
Solrに、任意の形式で次の出力を返してもらいたいと思います。
ありがとう。
ルークリクエストハンドラーを使用する
http://wiki.apache.org/solr/LukeRequestHandler
例:
http://localhost:8983/solr/admin/luke?fl=Your_Indexed_Field&numTerms=500
用語コンポーネントは、このタスクに適しているようです。これは、 Solr Stopwordsの自己更新に関する記事です。これは、Termsコンポーネントを使用して、最も一般的な1000個のインデックス付き単語を検索し、それらをStopwordsファイルに追加します。
1000個のインデックス付きキーワードの検索(頻度の降順で並べ替え):
http://url.to.solr/solr/terms?terms.fl=MY_FIELD&terms.limit=1000
私の知る限り、これはSolrのユースケースではありませんが、ファセットを使用して実行できます。ただし、パフォーマンスについての保証はありません。フィールドが適切にトークン化されるように設定されていることを確認してから、通常どおりクエリを実行しますが、最後に次の追加パラメーターを指定します。
&facet=true&facet.field=yourfield
yourfield
データを保存しているフィールドの名前に置き換えます。