warwaruk の言うとおりです。DEPTH_LIMIT 設定のデフォルト値は 0 です。つまり、「制限は課されていません」。
それでは、miniova をスクレイピングして、何が起こるか見てみましょう。ページから開始すると、today
2 つの tor リンクがあることがわかります。
stav@maia:~$ scrapy shell http://www.mininova.org/today
2012-08-15 12:27:57-0500 [scrapy] INFO: Scrapy 0.15.1 started (bot: scrapybot)
>>> from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
>>> SgmlLinkExtractor(allow=['/tor/\d+']).extract_links(response)
[Link(url='http://www.mininova.org/tor/13204738', text=u'[APSKAFT-018] Apskaft presents: Musique Concrte', fragment='', nofollow=False), Link(url='http://www.mininova.org/tor/13204737', text=u'e4g020-graphite412', fragment='', nofollow=False)]
最初のリンクをスクレイピングしましょう。そのページには新しい tor リンクがなく、iteself へのリンクだけで、デフォルトでは再クロールされません (scrapy.http.Request(url[, ... dont_filter=False, . ..])):
>>> fetch('http://www.mininova.org/tor/13204738')
2012-08-15 12:30:11-0500 [default] DEBUG: Crawled (200) <GET http://www.mininova.org/tor/13204738> (referer: None)
>>> SgmlLinkExtractor(allow=['/tor/\d+']).extract_links(response)
[Link(url='http://www.mininova.org/tor/13204738', text=u'General information', fragment='', nofollow=False)]
うまくいきません。まだ深さ 1 です。別のリンクを試してみましょう。
>>> fetch('http://www.mininova.org/tor/13204737')
2012-08-15 12:31:20-0500 [default] DEBUG: Crawled (200) <GET http://www.mininova.org/tor/13204737> (referer: None)
[Link(url='http://www.mininova.org/tor/13204737', text=u'General information', fragment='', nofollow=False)]
いいえ、このページには、それ自体へのリンクも 1 つしか含まれておらず、これもフィルタリングされます。したがって、実際にはスクレイプするリンクがないため、Scrapy はスパイダーを閉じます (深さ ==1)。