scrapy
Python ライブラリを使用して、Web サイト全体を再帰的に参照する次のクローラーを作成するにはどうすればよいですか。
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select('//ul[@class="directory-url"]/li/a/text()').extract()
for t in titles:
print "Title: ", t
私はこれを単一のページで試しました:
start_urls = [
"http://www.dmoz.org/Society/Philosophy/Academic_Departments/Africa/"
]
うまく機能しますが、開始 URL からの結果のみを返し、ドメイン内のリンクをたどりません。これは手動で行う必要があると思いますScrapy
が、方法がわかりません。