Lucene 内に保存されているドキュメントのインデックスがあります。インデックスからすべてのコロケーション ワードを頻度とともに抽出する必要があります。特定のドキュメント内のコロケーションを検出するためのさまざまなアルゴリズムがあることは知っていますが、このタスク専用に Lucene と連携できる既存のライブラリは知りません。誰かライブラリを知っていますか?
lucene インデックスからバイグラムだけを抽出する方法は知っていますが、もちろんすべてのバイグラムがコロケーション ワードであるとは限りません。