wget - ウェブサイトの高速再クロール

Question

いくつかのポータルのコンテンツを追跡し、毎晩変更をチェックする必要があるシステムを開発しています (たとえば、日中に追加された新しいサイトをダウンロードしてインデックスを作成するなど)。このポータルのコンテンツは検索用にインデックス化されます。問題は、このポータルの再クロールにあります。ポータルの最初のクロールに非常に時間がかかり (ポータルの例: www.onet.pl、www.bankier.pl、www.gazeta.pl) 、より速く再クロールしたい (できるだけ早く）たとえば、変更の日付を確認しますが、wgetを使用しましたwww.bankier.pl をダウンロードしますが、最終変更ヘッダーがないと不平を言います。非常に多くのサイトを再クロールする方法はありますか? Nutch も使用してみましたが、re-clawing のスクリプトが正しく動作しないようです。または、このヘッダー (最終変更) にも依存しています。たぶん、新しいサイトを追加して既にダウンロードしたサイトを更新できるツール、クローラー（Nutchなど）があるでしょうか??

敬具、ヴォイテク

score 1 · Accepted Answer

curlを使用してヘッドのみをフェッチし、Last-Modifiedヘッダーが変更されているかどうかを確認することをお勧めします。

例：

 curl --head www.bankier.pl

score 0 · Accepted Answer

Nutch については、Nutch で再クロールする方法に関するブログ記事を書きました。基本的に、db.fetch.interval.default設定には低い値を設定する必要があります。URL の次のフェッチで、Nutch は最後のフェッチ時刻をIf-Modified-Since HTTP ヘッダーの値として使用します。

wget - ウェブサイトの高速再クロール

2 に答える 2

Related

Reference