0

ファイルのインデックス作成に 2 つの solr を使用しています。更新を行うため、1 つの記事が両方の solr にインデックスされることがあります。これらの記事が重複しているため、ファセット数が正しくないという問題が発生します。カウントの重複を排除するにはどうすればよいですか?

4

1 に答える 1

0

私のアドバイスは、重複した記事を保持しないことです。したがって、この重複する記事を識別し、1つのSOLRから削除する方法が必要です。

重複する記事を削除したくない場合でも、それらを追跡する必要があります。SOLR1のどの記事がSOLR2で重複しているかを知ることは、次のようにカウントを重複排除するのに役立ちます。

  • SOLR1に次の名前の追加フィールドを作成します。

    IsDuplicateField = true, if article is duplicated in SOLR2
                     = false, otherwise
    
  • SOLR1にクエリを実行するときは、ファセットにIsDuplicatedField=trueを追加します。

  • 結果を取得するときは、SOLR1からのIsDuplicateFieldの総数でファセットカウントの総数を減らすだけです。

この状況では、ファセットIsDuplicateFieldは、複製されてクエリに一致するすべての記事を取得します。

幸運を !

于 2011-08-18T09:25:04.707 に答える