2

いくつかのポータルのコンテンツを追跡し、毎晩変更をチェックする必要があるシステムを開発しています (たとえば、日中に追加された新しいサイトをダウンロードしてインデックスを作成するなど)。このポータルのコンテンツは検索用にインデックス化されます。問題は、このポータルの再クロールにあります。ポータルの最初のクロールに非常に時間がかかり (ポータルの例: www.onet.pl、www.bankier.pl、www.gazeta.pl) 、より速く再クロールしたい (できるだけ早く)たとえば、変更の日付を確認しますが、wgetを使用しましたwww.bankier.pl をダウンロードしますが、最終変更ヘッダーがないと不平を言います。非常に多くのサイトを再クロールする方法はありますか? Nutch も使用してみましたが、re-clawing のスクリプトが正しく動作しないようです。または、このヘッダー (最終変更) にも依存しています。たぶん、新しいサイトを追加して既にダウンロードしたサイトを更新できるツール、クローラー(Nutchなど)があるでしょうか??

敬具、ヴォイテク

4

2 に答える 2

1

curlを使用してヘッドのみをフェッチし、Last-Modifiedヘッダーが変更されているかどうかを確認することをお勧めします。

例:

 curl --head www.bankier.pl
于 2011-01-06T19:03:27.570 に答える
0

Nutch については、Nutch で再クロールする方法に関するブログ記事を書きました。基本的に、db.fetch.interval.default設定には低い値を設定する必要があります。URL の次のフェッチで、Nutch は最後のフェッチ時刻をIf-Modified-Since HTTP ヘッダーの値として使用します。

于 2011-01-06T19:00:10.567 に答える