重複の可能性:
Luceneで頻繁に発生するフレーズを取得する方法
インデックスで最も出現する単語または単語グループを見つける必要があります。つまり、最も出現するテキストは単語自体または単語グループである可能性があります。ツイッターのトレンドトピックによく似ています(もちろんハッシュタグエンティティはありません)。Luceneはそうするためのある種の方法を提供しますか、それとも大量のデータでこれをどのように達成できますか?質問が不明確な場合は、より具体的な例を示すことができます。ちなみに私はJavaとLucene3.5を使用しています。
また、「単語グループ」をすばやく編集すると、最大3つの単語を含めることができます。大きなテキストで、「is」という単語が500回「weather」100回「nice」300回、単語グループ「weatherisnice」が90回あるとします。「天気がいい」の発生が私にとって重要かどうかを知る必要があります。そしてもちろん、私はすべての索引付けされた単語を調べる必要があります...
ありがとうございました。