検索結果をクロールするためにscrapyを使用しています。search_page
現在のページ番号を示す変数があります。
関数内にその変数がありparse
ます。
今、私はその時のsearch_page > 500
クローラーがクロールを停止する必要がある場合にそれを望んでいます
どうやってやるの
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//div[@class="headline_area"]')
items = []
for site in sites[:5]:
item = StackItem()
log.msg(' LOOP' +str(ivar)+ '', level=log.ERROR)
item['title'] ="yoo ma"
request = Request("blabla", callback=self.test1)
request.meta['item'] = item
page_number = nextlink.split("&")[-3].split("=")[-1]
if page_number > 500:
STOP
ivar = ivar + 1
yield request