私はスパイダーを働かせようとしています。これはスパイダーの私のコードです:
start_urls = ["http://www.khmer24.com/"]
rules = (
Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',),
),
callback='parse_items'),
)
サンプルの URL は次のよう
になり
ます
。scrapy crawl khmer24
Crawled (200) <GET http://www.khmer24.com/> (referer: None)
理由がわかりません。コード全体は次のとおりです。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
class MySpider(CrawlSpider):
name = "khmer24"
allowed_domains = ["khmer24.com"]
start_urls = ["http://www.khmer24.com/"]
rules = (
Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',),
),
callback='parse_items'),
)
def parse_items(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//div[@class='innerbox']/h1/text()")
return(titles)