スパイダー フレームワークの Anemone について知りました。そのサイトは言った
注: すべてのストレージ エンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。
質問:これを回避できるかどうか疑問に思っています。つまり、クロールされたものを保持し、新しいクロール中にコピーを更新/更新できますか?
根拠:
Anemone をリモート Web ページのローカル ストアとして使用したいと考えています。私の既存のページ パーサーは、そこから Nokogiri dom ドキュメント オブジェクトにアクセスできます。多くのページ パーサーが同じ URL アドレスにアクセスする必要があるため、これにより同じページの重複したフェッチを回避できます。
さらに、Anemone は http expire ヘッダーを使用して、ページが更新されたかどうかを判断するのに十分なほど賢く、再ダウンロードする必要があります (以前の dom ドキュメントがあるため)。