Lucene (具体的には Compass) を使用してフォーラムのスレッドをログに記録していますが、ディスカッションの背後にあるキーワードを抽出する方法が必要です。そうは言っても、誰かが作成したすべてのエントリをインデックスに登録したくはありませんが、特定のコンテキストに関連する「キーワード」のリストがあり、エントリがキーワードに一致し、しきい値を超えている場合は追加しますこれらのエントリをインデックスに追加します。
アナライザーの機能を使用して物事を取り除き、その魔法を実行できるようにしたいのですが、キーワードを照合するためにアナライザーからトークンを返し、特定の単語が言及されている回数をカウントしたいと考えています。
作成されたすべてのエントリのインデックス作成のオーバーヘッドなしで、アナライザーからトークンを取得する方法はありますか?
すべてのエントリを保持するために RAMDirectory を維持し、キーワードのリストを使用して検索を実行し、関連するドキュメントを永続化マネージャにマージして、関連するエントリを実際に保存する必要があると考えていました。