scrapy - 私のスクレイピーが常に「TCP接続がタイムアウトしました」と言うのはなぜですか

Question

デバッグ: 再試行中
 (2回失敗): TCP接続がタイムアウトしました: 110: 接続がタイムアウトしました。

ps：システムはubuntuです。これを正常に実行できます：

wget http://www.dmoz.org/Computers/Programming/Languages/Python/Book/

スパイダーコード:

#!/usr/bin/python

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//ul/li')
        for site in sites:
            title = site.select('a/text()').extract()
            link = site.select('a/@href').extract()
            desc = site.select('text()').extract()
            print title, link, desc

score 3 · Accepted Answer

ネットワーク内に問題があるか、ポートがブロックされています。

また、設定に誤りがないかどうかも確認してください。

scrapy - 私のスクレイピーが常に「TCP接続がタイムアウトしました」と言うのはなぜですか

1 に答える 1

Related

Reference