基本的に次のようなリンクがあるWebサイトをクロールする必要があります。
www.website.com/link/page_1.html
www.website.com/link/page_2.html
www.website.com/link/page_3.html
...
スクレイピングされたコンテンツは、パイプラインを介してデータベースに直接送られます。
djangoに次のようなことを伝えるのは簡単です。
if item exists do not insert it, otherwise insert it
しかし、最後のスクレイプ以降に追加された残りのリンクをスクレイプする方法はありますか?
たとえば、website.comが新しいアイテムを挿入した後:
/link/page_1.html becomes /link/page_2.html
new items populate /link/page_1.html
この時点で、最後のスクレイプ以降に新しく追加されたアイテムをスクレイプするだけで、スクレイプに何を伝える必要がありますか?