いくつかのポータルのコンテンツを追跡し、毎晩変更をチェックする必要があるシステムを開発しています (たとえば、日中に追加された新しいサイトをダウンロードしてインデックスを作成するなど)。このポータルのコンテンツは検索用にインデックス化されます。問題は、このポータルの再クロールにあります。ポータルの最初のクロールに非常に時間がかかり (ポータルの例: www.onet.pl、www.bankier.pl、www.gazeta.pl) 、より速く再クロールしたい (できるだけ早く)たとえば、変更の日付を確認しますが、wgetを使用しましたwww.bankier.pl をダウンロードしますが、最終変更ヘッダーがないと不平を言います。非常に多くのサイトを再クロールする方法はありますか? Nutch も使用してみましたが、re-clawing のスクリプトが正しく動作しないようです。または、このヘッダー (最終変更) にも依存しています。たぶん、新しいサイトを追加して既にダウンロードしたサイトを更新できるツール、クローラー(Nutchなど)があるでしょうか??
敬具、ヴォイテク