1

SOLR で NCrawler を使用する場合、増分クロールとインデックス作成を実行する方法はありますか? クローラーがクロールするたびに完全なデータを取得するのは望ましくありません。クロールをインクリメンタルにする方法はありますか?

前もって感謝します。

4

1 に答える 1

2

このためにNCrawlerに組み込まれているものはありません。これを処理するには、独自の処理を作成する必要があります。ただし、拡張可能なIPipelineStepメカニズムを使用すると、クロールの周囲に必要なプロセスを作成できます。たとえば、訪問した各URLをページコンテンツのハッシュとともにデータベースに保存して、ページがいつ変更されるかを判断し、変更されたページのみをインデックスに処理することができます。

于 2013-03-21T12:11:38.490 に答える