0

Lucene 内に保存されているドキュメントのインデックスがあります。インデックスからすべてのコロケーション ワードを頻度とともに抽出する必要があります。特定のドキュメント内のコロケーションを検出するためのさまざまなアルゴリズムがあることは知っていますが、このタスク専用に Lucene と連携できる既存のライブラリは知りません。誰かライブラリを知っていますか?

lucene インデックスからバイグラムだけを抽出する方法は知っていますが、もちろんすべてのバイグラムがコロケーション ワードであるとは限りません。

4

1 に答える 1

0

すべての n-gram を生成するシングルを使用するのはどうですか。次に、ファセットを使用してそれらの ngram をカウントで戻しますか? または管理セクションからの用語分析。

于 2014-02-07T09:00:25.163 に答える