7

Pythonのscrapyツールを使ってPythonでクローラーを書きました。以下はpythonコードです:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
#from scrapy.item import Item
from a11ypi.items import AYpiItem

class AYpiSpider(CrawlSpider):
        name = "AYpi"
        allowed_domains = ["a11y.in"]
        start_urls = ["http://a11y.in/a11ypi/idea/firesafety.html"]

        rules =(
                Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item')
                )

        def parse_item(self,response):
                #filename = response.url.split("/")[-1]
                #open(filename,'wb').write(response.body)
                #testing codes ^ (the above)

                hxs = HtmlXPathSelector(response)
                item = AYpiItem()
                item["foruri"] = hxs.select("//@foruri").extract()
                item["thisurl"] = response.url
                item["thisid"] = hxs.select("//@foruri/../@id").extract()
                item["rec"] = hxs.select("//@foruri/../@rec").extract()
                return item

ただし、リンクをたどる代わりに、スローされるエラーは次のとおりです。

Traceback (most recent call last):
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 131, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 97, in _run_print_help
    func(*a, **kw)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 138, in _run_command
    cmd.run(args, opts)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/commands/crawl.py", line 45, in run
    q.append_spider_name(name, **opts.spargs)
--- <exception caught here> ---
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/queue.py", line 89, in append_spider_name
    spider = self._spiders.create(name, **spider_kwargs)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/spidermanager.py", line 36, in create
    return self._spiders[spider_name](**spider_kwargs)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/contrib/spiders/crawl.py", line 38, in __init__
    self._compile_rules()
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/contrib/spiders/crawl.py", line 82, in _compile_rules
    self._rules = [copy.copy(r) for r in self.rules]
exceptions.TypeError: 'Rule' object is not iterable

誰かが私に何が起こっているのか説明してもらえますか? これはドキュメントに記載されている内容であり、許可フィールドを空白のままにしているので、それ自体がデフォルトで True に従う必要があります。では、なぜエラーが発生するのでしょうか? クローラーを高速化するために、どのような最適化を行うことができますか?

4

1 に答える 1

34

私が見たところ、あなたのルールは反復可能ではないようです。ルールをタプルにしようとしていたようです。Python ドキュメント のタプルについて読む必要があります。

問題を解決するには、次の行を変更します。

    rules =(
            Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item')
            )

に:

    rules =(Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item'),)

末尾のコンマに注目してください。

于 2011-03-07T18:39:01.013 に答える