1

私が働いている会社には、ユーザーのドライブにマップされた複数のネットワークドライブに保存および共有されている何百万ものドキュメントがあります(例:d:\から\ server1 \など)。

私が実装したいのは、ネットワークドライブをクロールし、ユーザーがフルテキストインデックスを使用してファイルをすばやく見つけられるようにすることです。

私の現在のインデックス戦略Lucene.net

しかし、ネットワーク上を移動するパケットは言うまでもなく、インデックスを作成するドキュメントが何百万もあるため、ネットワークドライブのインデックスを作成する頻度がわかりません。

したがって、問題は、インデックス作成頻度をどのように実装する必要があるかということです。
私は例としてGoogle/Windowsデスクトップ検索インデックスの頻度について調査を行ってきましたが、成果はありませんでした。

4

1 に答える 1

3

答えの多くは、顧客とのサービスレベル契約にまとめられています。SLAで、検索結果がX分以内に最新であると記載されている場合は、インデックス作成の頻度をどのように実装する必要があるかについての質問に答えます。

私のように、検索とインデックス作成のための具体的なSLAがない場合は、より柔軟に対応できます。たとえば、私は自分のビジネス用のSharePointSearchサーバーを管理しています。当社のWebサイトに加えて、非構造化ファイルスペースの多くのコンテンツにもインデックスを付けています。サーバーは、フルクロールとインクリメンタルクロールをサポートしています。増分クロールを完了するのにかかる時間の見積もりを取得するために、いくつかの増分クロールの時間を計りました。次に、観察された経過時間よりも快適に長い間隔で増分クロールをスケジュールしました。フルクロールがピーク時以外の時間に発生する頻度を減らすようにスケジュールしました。

詳細は、使用する特定のインデックス作成テクノロジーによって異なる場合がありますが、原則は同じです。

  • できればピーク時と非ピーク時にいくつかのクロールを観察し、クロールスケジュールを最悪の場合よりも快適に大きくなるように構成します。
  • 夕方などのピーク時以外の時間には、より多くのリソースを消費するクロールをスケジュールします。
  • フルクロールが完了するまでに数時間以上かかる場合は、週末にスケジュールを設定する可能性があります。
  • インクリメンタルクロールをサポートするテクノロジーを使用すると、インデックスを最新の状態に保ちながら、ピーク時の帯域幅を大幅に削減できます。

幸運を!

于 2010-08-23T00:37:43.860 に答える