3

Scrapyを使用して再帰的な解析スクリプトを作成しようとしていますが、Request()関数はコールバック関数suppose_to_parse()を呼び出さず、コールバック値で提供される関数も呼び出しません。さまざまなバリエーションを試しましたが、どれも機能しません。どこを掘る?

from scrapy.http import Request
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector



class joomler(BaseSpider):
    name = "scrapy"
    allowed_domains = ["scrapy.org"]
    start_urls = ["http://blog.scrapy.org/"]


    def parse(self, response):
        print "Working... "+response.url
        hxs = HtmlXPathSelector(response)
        for link in hxs.select('//a/@href').extract():
            if not link.startswith('http://') and not link.startswith('#'):
               url=""
               url=(self.start_urls[0]+link).replace('//','/')
               print url
               yield Request(url, callback=self.suppose_to_parse)


    def suppose_to_parse(self, response):
        print "asdasd"
        print response.url
4

2 に答える 2

1

ifステートメントの外にyieldを移動します。

for link in hxs.select('//a/@href').extract():
    url = link
    if not link.startswith('http://') and not link.startswith('#'):
        url = (self.start_urls[0] + link).replace('//','/')

    print url
    yield Request(url, callback=self.suppose_to_parse)
于 2013-03-22T22:28:35.303 に答える
1

私は専門家ではありませんが、あなたのコードを試しましたが、問題はリクエストにないようです。リストにいくつかのURLを追加してそれらを繰り返し処理し、コールバックでリクエストを生成すると、生成されたURLが壊れているようです。 、正常に動作します。

于 2013-03-22T21:56:17.460 に答える