警告:この回答はScrapy v0.7に対するもので、それ以降、スパイダーマネージャーのAPIが大幅に変更されました。
デフォルトのSpiderManagerクラスをオーバーライドし、データベースまたは他の場所からカスタムルールをロードし、独自のルール/正規表現とdomain_nameを使用してカスタムスパイダーをインスタンス化します。
mybot / settings.py:
SPIDER_MANAGER_CLASS = 'mybot.spidermanager.MySpiderManager'
mybot / spidermanager.py:
from mybot.spider import MyParametrizedSpider
class MySpiderManager(object):
loaded = True
def fromdomain(self, name):
start_urls, extra_domain_names, regexes = self._get_spider_info(name)
return MyParametrizedSpider(name, start_urls, extra_domain_names, regexes)
def close_spider(self, spider):
# Put here code you want to run before spiders is closed
pass
def _get_spider_info(self, name):
# query your backend (maybe a sqldb) using `name` as primary key,
# and return start_urls, extra_domains and regexes
...
return (start_urls, extra_domains, regexes)
そして今、mybot /spider.pyにあるカスタムスパイダークラス:
from scrapy.spider import BaseSpider
class MyParametrizedSpider(BaseSpider):
def __init__(self, name, start_urls, extra_domain_names, regexes):
self.domain_name = name
self.start_urls = start_urls
self.extra_domain_names = extra_domain_names
self.regexes = regexes
def parse(self, response):
...
ノート:
- ルールシステムを利用したい場合は、CrawlSpiderを拡張することもできます
- スパイダーを実行するには、次を使用します。
./scrapy-ctl.py crawl <name>
ここで、name
SpiderManager.fromdomainに渡され、バックエンドシステムからより多くのスパイダー情報を取得するためのキーです。
- ソリューションはデフォルトのSpiderManagerをオーバーライドするため、従来のスパイダー(SPIDERごとのPythonモジュール)のコーディングは機能しませんが、これは問題ではないと思います。デフォルトのスパイダーマネージャーの詳細TwistedPluginSpiderManager