from scrapy.spider import BaseSpider
class dmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
次に、「スクレイピー クロール dmoz」を実行すると、次のエラーが発生しました。
2013-09-14 13:20:56+0700 [dmoz] DEBUG: 再試行 http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (1回失敗): 相手側に接続した非クリーンな方法で失われました。
これを修正する方法を知っている人はいますか?