Web サイトのクロールを容易にするために、scrapy ライブラリを使用しています。
Web サイトは認証を使用しており、scrapy を使用してページに正常にログインできます。
このページには、ユーザーをログアウトさせてセッションを破棄する URL があります。
クロール時にスクレイピーがログアウトページを回避するようにするにはどうすればよいですか?
Link Extractorを使用していて、単にこの特定の「ログアウト」リンクをたどりたくない場合は、deny
プロパティを設定できます。
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
別のオプションはresponse.url
、スパイダーのparse
メソッド内を確認することです。
def parse(self, response):
if 'logout' in response.url:
return
# extract items
それが役立つことを願っています。