solr - Lucene インデックスからコロケーションワードを抽出する

Question

Lucene 内に保存されているドキュメントのインデックスがあります。インデックスからすべてのコロケーションワードを頻度とともに抽出する必要があります。特定のドキュメント内のコロケーションを検出するためのさまざまなアルゴリズムがあることは知っていますが、このタスク専用に Lucene と連携できる既存のライブラリは知りません。誰かライブラリを知っていますか？

lucene インデックスからバイグラムだけを抽出する方法は知っていますが、もちろんすべてのバイグラムがコロケーションワードであるとは限りません。

score 0 · Accepted Answer

すべての n-gram を生成するシングルを使用するのはどうですか。次に、ファセットを使用してそれらの ngram をカウントで戻しますか? または管理セクションからの用語分析。

solr - Lucene インデックスからコロケーション ワードを抽出する

1 に答える 1

Related

Reference

solr - Lucene インデックスからコロケーションワードを抽出する