from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
for site in sites:
title = site.select('a/text()').extract()
link = site.select('a/@href').extract()
desc = site.select('text()').extract()
print title, link, desc
これは私のコードです。ループを使用してスクレイピングする URL がたくさん必要です。では、どうすればこれらに当てはまりますか?そこに複数の URL を入れましたが、それらすべてから出力が得られませんでした。一部の URL が応答を停止します。では、このコードを使用して確実にデータを取得するにはどうすればよいでしょうか?