ruby - アネモネは、再クロール時に以前に保存されたページを保持できますか

翻译自：https://stackoverflow.com/questions/13522961 2012-11-23T04:08:29.740

238 次

スパイダーフレームワークの Anemone について知りました。そのサイトは言った

注: すべてのストレージエンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。

質問:これを回避できるかどうか疑問に思っています。つまり、クロールされたものを保持し、新しいクロール中にコピーを更新/更新できますか?

根拠:

Anemone をリモート Web ページのローカルストアとして使用したいと考えています。私の既存のページパーサーは、そこから Nokogiri dom ドキュメントオブジェクトにアクセスできます。多くのページパーサーが同じ URL アドレスにアクセスする必要があるため、これにより同じページの重複したフェッチを回避できます。

さらに、Anemone は http expire ヘッダーを使用して、ページが更新されたかどうかを判断するのに十分なほど賢く、再ダウンロードする必要があります (以前の dom ドキュメントがあるため)。

ruby - アネモネは、再クロール時に以前に保存されたページを保持できますか

0 に答える 0

Related

Reference