0

100K-1000k ドキュメントを含む solr コアがあります。
ほとんどのドキュメントでフィールド値を追加または設定する必要があるシナリオがあります。
Solr で行うには時間がかかりすぎます。
Lucene ライブラリでこのようなタスクを実行し、Solr インデックスに直接 (オーバーヘッドを抑えて) アクセスする方法があるかどうか疑問に思っていました。
必要に応じて、コアをシャットダウンし、コードを実行して、後でコアをリロードできます (Solr で行うよりも時間がかからないことを願っています)。
誰かがすでにそのようなことを行っているかどうか、そしてその方法の主な落とし穴は何かを聞くのは素晴らしいことです.

4

2 に答える 2

0

同様の問題が Lucene Java メーリング リストで何度も議論されています。根底にある問題は、Lucene (したがって Solr) でドキュメントを更新できないことです。

代わりに、ドキュメントを削除して新しいドキュメントを挿入する必要があります。これにより、インデックス セグメントの分析やマージなどのオーバーヘッドが明らかに追加されます。ただし、指定されたドキュメントの量は大きなものではなく、数日かかることはありません (Solr を複数のスレッドで更新してみましたか?)。

もちろん、Lucene を介してこれを実行してみて、違いが生じるかどうかを確認することもできますが、Solr と同じアナライザーを使用することを絶対に確認する必要があります。

于 2013-10-28T14:39:01.077 に答える