java - Lucene: 複数の独立したインデックスセットで検索を実行し、結果をマージする方法は?

Question

現在、いくつかの Lucene インデックスセット (シャードと呼んでいます) があり、さまざまなドキュメントセットにインデックスを付けています。それらは独立しているため、他のものを読まなくてもそれぞれを検索できます。次に、クエリリクエストを取得します。すべてのインデックスセットを検索し、結果を組み合わせて最終的なトップドキュメントを形成したいと考えています。

ドキュメントをスコアリングするとき、Luceneはすべての用語の < idf >を知る必要があり、異なるインデックスセットは同じ用語に異なる < idf > を与えることを知っています (異なるインデックスセットは異なるドキュメントセットを保持するため)。したがって、私の理解では、異なるインデックスセットのドキュメントスコアを直接比較することはできません。では、最終結果をどのように生成すればよいでしょうか?

明らかな解決策は、最初にインデックスをマージしてから、大きなインデックスに対して検索を実行することです。しかし、これは私には時間がかかりすぎるため、受け入れられません。他のより良い解決策はありますか？

PS: Lucene と Hadoop 以外のパッケージやソフトウェア (Katta など) は使用したくありません。

score 7 · Accepted Answer

MultiReaderはあなたが探しているものだと思います。複数の IndexReader がある場合は、次のように言いreader1ますreader2。

MultiReader multiReader = new MultiReader(reader1, reader2);
IndexSearcher searcher = new IndexSearcher(multiReader);

java - Lucene: 複数の独立したインデックス セットで検索を実行し、結果をマージする方法は?

1 に答える 1

Related

Reference

java - Lucene: 複数の独立したインデックスセットで検索を実行し、結果をマージする方法は?