xml ページhttp://www.10why.net/sitemap.xmlをクロールする必要があります。 これは、必要な URL の単なるテーブルです。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re
thename = "sitemap"
class ReviewSpider(BaseSpider):
name = thename
allowed_domains = ['10why.net']
start_urls = ['http://www.10why.net/sitemap.xml']
def parse(self, response):
hxs = HtmlXPathSelector(response)
content = hxs.select('//table[@cellpadding="5"]/tbody//a')
print content
for c in content:
file = open('%s.txt' % thename, 'a')
file.write("\n")
file.write(c)
file.close()
印刷されるコンテンツは [] (空のリスト) です。これは、サイト マップの xml ページではなく、通常の html ページでクロールできるようにするために使用します。私を助けてください。PS: 他の理由で自分でファイルを書きます。