0

フォーラムのスレッドからデータを収集する Scrapy クローラーを作成しました。一覧ページでは、最終更新日を確認できます。その日付に基づいて、スレッドを再度クロールするかどうかを決定したいと考えています。パイプラインを使用して、データをmysqlに保存します。CrawlSpider でリスト ページを処理しているときに、mysql のレコードをチェックしたいのですが、そのレコードに基づいて、リクエストを生成するかどうかを決定します。(新しい投稿がない限り、URLをロードしたくありません。)

これを行う最良の方法は何ですか?

4

1 に答える 1

0

使用CrawSpider Rule:

Rule(SgmlLinkExtractor(), follow=True, process_request='check_moddate'),

次に、スパイダーで:

def check_moddate(self, request):
    def dateisnew():
        # check the date
    if dateisnew():
        return request
于 2013-03-14T13:15:16.457 に答える