python - URLを順番に処理するためにscrapyを作成するにはどうすればよいですか

Question

私はこのコードを持っています

def parse(self, response):

    hxs = HtmlXPathSelector(response)
    sites = hxs.select('//div[@class="headline_area"]')
    items = []

    for site in sites[:5]:
        item = StackItem()
        log.msg(' LOOP' +str(ivar)+ '', level=log.ERROR)
        item['title'] ="yoo ma"
        request =  Request("blabla",  callback=self.test1)
        request.meta['item'] = item
        page_number = nextlink.split("&")[-1].split("=")[-1]
        if int(page_number) > 500:
           raise CloseSpider('Search Exceeded 500')
        ivar = ivar + 1
        yield request

        mylinks= soup.find_all('a')

        if mylinks:
            nextlink = mylinks[0].get('href')
            page_number = nextlink.split("&")[-3].split("=")[-1]
            request =  Request(urljoin(response.url, nextlink), callback=self.parse)
            request.meta['page'] = page_number
            yield request

今私の問題は、私が立ち寄りたいと仮定することですpage_number = 5

現在、スクラップは、ページ 1 、ページ 2 などのすべてのアイテムがダウンロードされる前にそのページに移動し、最初にそこに到達したときに停止します。

に行く前にすべてのリンクを処理するという問題をどのように取り除くことができますかpage = 5

score 0 · Accepted Answer

リンクは別のページで何らかの規則性を持っていますか? たとえば、5 ページ目のリンクがwww.xxxx.net/nForum/#!article/Bet/447540?p=5. 直接スクラップリンクできますp=5。

python - URLを順番に処理するためにscrapyを作成するにはどうすればよいですか

2 に答える 2

Related

Reference