0

次のように、クライアント サーバー アーキテクチャで Lucene 3.5 を使用しています。クライアントはサーバーにクエリを発行します。サーバーは、クエリで使用された用語のリストと、検索されたドキュメントへの の適用によって生成されたスニペットを含むヒットのリストを返しますHighlighter。その後、ユーザーはドキュメント全体を表示するように要求できます。このドキュメントは、私が構築しているシステムの一部である別のサービスからのものです。

要求されたドキュメントが表示されたら、それを取得するために使用されたのと同じ用語を強調表示したいと思います。Lucene インフラストラクチャを使用せずにこれを行うための他のコードを書くことはできますが、スニペットを生成するためのコードが既にあるので、それを再利用できることを望んでいました。(ドライなど)

私の質問は、これを行う最善の方法です。検索結果でドキュメントをマークアップする必要がある場合、クライアントは、ドキュメントを取得するために使用された用語のセットと、取得されたドキュメントの ID を持っています。また、ドキュメント内のどのフィールドをクエリ用語でマークアップできるかも認識しています。

いくつかの可能な戦略:

  1. 必要なドキュメントのみを選択するクエリ フィルタを作成し、そのドキュメントに対してのみクエリを再実行します。

  2. どういうわけか (どのように?) aScorerに依存しないQueryが、既に持っている用語をシードできる a を構築します。

  3. Lucene インフラストラクチャを完全にスキップします。

  4. ほかに何か?

4

1 に答える 1

0

元のドキュメント内の各用語の位置を示すTermVectorを使用してドキュメントにインデックスを付けることができると思います。ハイライトを簡単にします。または、単にcontrib蛍光ペンを再利用します

于 2012-11-25T23:04:08.707 に答える