solr - インデックス付きフィールドで最も一般的に表示される単語はどれですか？

Question

最も一般的なインデックス付きの単語をSolrに照会するにはどうすればよいですか？たとえば、ドキュメントごとに次のフィールドを指定します。

Solrに、任意の形式で次の出力を返してもらいたいと思います。

ありがとう。

score 8 · Accepted Answer

ルークリクエストハンドラーを使用する

例：

http://localhost:8983/solr/admin/luke?fl=Your_Indexed_Field&numTerms=500

score 4 · Accepted Answer

用語コンポーネントは、このタスクに適しているようです。これは、 Solr Stopwordsの自己更新に関する記事です。これは、Termsコンポーネントを使用して、最も一般的な1000個のインデックス付き単語を検索し、それらをStopwordsファイルに追加します。

1000個のインデックス付きキーワードの検索（頻度の降順で並べ替え）：

http://url.to.solr/solr/terms?terms.fl=MY_FIELD&terms.limit=1000

score 0 · Accepted Answer

私の知る限り、これはSolrのユースケースではありませんが、ファセットを使用して実行できます。ただし、パフォーマンスについての保証はありません。フィールドが適切にトークン化されるように設定されていることを確認してから、通常どおりクエリを実行しますが、最後に次の追加パラメーターを指定します。

&facet=true&facet.field=yourfield

yourfieldデータを保存しているフィールドの名前に置き換えます。

3 に答える 3