1

基本的に次のようなリンクがあるWebサイトをクロールする必要があります。

www.website.com/link/page_1.html
www.website.com/link/page_2.html
www.website.com/link/page_3.html
...

スクレイピングされたコンテンツは、パイプラインを介してデータベースに直接送られます。

djangoに次のようなことを伝えるのは簡単です。

if item exists do not insert it, otherwise insert it

しかし、最後のスクレイプ以降に追加された残りのリンクをスクレイプする方法はありますか?

たとえば、website.comが新しいアイテムを挿入した後:

/link/page_1.html becomes /link/page_2.html
new items populate /link/page_1.html

この時点で、最後のスクレイプ以降に新しく追加されたアイテムをスクレイプするだけで、スクレイプに何を伝える必要がありますか?

4

1 に答える 1

1

最新のscrapyは、ディスクへのリクエストのシリアル化をサポートしています[1]。また、RolandoのRedis統合[2]もあります。

于 2012-07-03T22:08:30.717 に答える