python - Scrapy: mysql に基づいて URL を選択する最良の方法

Question

フォーラムのスレッドからデータを収集する Scrapy クローラーを作成しました。一覧ページでは、最終更新日を確認できます。その日付に基づいて、スレッドを再度クロールするかどうかを決定したいと考えています。パイプラインを使用して、データをmysqlに保存します。CrawlSpider でリストページを処理しているときに、mysql のレコードをチェックしたいのですが、そのレコードに基づいて、リクエストを生成するかどうかを決定します。（新しい投稿がない限り、URLをロードしたくありません。）

これを行う最良の方法は何ですか？

score 0 · Accepted Answer

使用CrawSpider Rule:

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),

次に、スパイダーで：

def check_moddate(self, request):
    def dateisnew():
        # check the date
    if dateisnew():
        return request

python - Scrapy: mysql に基づいて URL を選択する最良の方法

1 に答える 1

Related

Reference