java - Lucene インデックスから最高頻度の用語を取得する

Question

いくつかの意味分析に使用するために、いくつかの lucene インデックスから最も頻度の高い用語を抽出する必要があります。

したがって、おそらく上位 30 の最も頻繁に発生する用語 (まだしきい値を決定していません。結果を分析します) とそれらのインデックスごとのカウントを取得したいと考えています。潜在的に重複が失われる可能性があるため、精度が低下する可能性があることは承知していますが、今のところ、それで問題ないとしましょう。

したがって、提案されたソリューションについては、(言うまでもなくおそらく) 速度は重要ではありません。私は静的分析を行うため、実装の単純さに重点を置きます。なぜなら、私は Lucene にあまり熟練しておらず、そのいくつかの概念に頭を悩ませることができないからです。 .

似たようなコードサンプルが見つからないので、すべての具体的なアドバイス (コード、疑似コード、コードサンプルへのリンク...) すべてのアドバイスに感謝します!

ありがとうございました！

score 5 · Accepted Answer

非常に簡単な方法は、Lukeを使用することです。[概要] タブには、必要なものに使用できる [上位用語を表示] ボタンがあります。

score 2 · Accepted Answer

これを見てください： http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

このページのクラスにはcomputeTopTermQuery、複数のインデックスを処理するために簡単に改造できるメソッドがあります。

java - Lucene インデックスから最高頻度の用語を取得する

2 に答える 2

Related

Reference