3

スパイダー フレームワークの Anemone について知りました。そのサイトは言った

注: すべてのストレージ エンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。

質問:これを回避できるかどうか疑問に思っています。つまり、クロールされたものを保持し、新しいクロール中にコピーを更新/更新できますか?

根拠:

Anemone をリモート Web ページのローカル ストアとして使用したいと考えています。私の既存のページ パーサーは、そこから Nokogiri dom ドキュメント オブジェクトにアクセスできます。多くのページ パーサーが同じ URL アドレスにアクセスする必要があるため、これにより同じページの重複したフェッチを回避できます。

さらに、Anemone は http expire ヘッダーを使用して、ページが更新されたかどうかを判断するのに十分なほど賢く、再ダウンロードする必要があります (以前の dom ドキュメントがあるため)。

4

0 に答える 0