python - スクレイピーはクローラーのログアウトを避ける

Question

Web サイトのクロールを容易にするために、scrapy ライブラリを使用しています。

Web サイトは認証を使用しており、scrapy を使用してページに正常にログインできます。

このページには、ユーザーをログアウトさせてセッションを破棄する URL があります。

クロール時にスクレイピーがログアウトページを回避するようにするにはどうすればよいですか?

score 0 · Accepted Answer

Link Extractorを使用していて、単にこの特定の「ログアウト」リンクをたどりたくない場合は、denyプロパティを設定できます。

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

別のオプションはresponse.url、スパイダーのparseメソッド内を確認することです。

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

それが役立つことを願っています。

1 に答える 1