7

parse メソッドでスパイダーの設定を変更できません。しかし、それは間違いなく方法でなければなりません。

例えば:

クラス SomeSpider(BaseSpider):
    名前 = 'マイスパイダー'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']
    settings.overrides['ITEM_PIPELINES'] = ['myproject.pipelines.FirstPipeline']
    印刷設定['ITEM_PIPELINES'][0]
    #printed 'myproject.pipelines.FirstPipeline'
    デフパース(自己、応答):
        #...いくつかのコード
        settings.overrides['ITEM_PIPELINES'] = ['myproject.pipelines.SecondPipeline']
        印刷設定['ITEM_PIPELINES'][0]
        # 'myproject.pipelines.SecondPipeline' を出力しました
        item = マイアイテム()
        item['mame'] = 'SecondPipeline の名前'  

しかし!アイテムは FirstPipeline によって処理されます。新しい ITEM_PIPELINES パラメータが機能しません。クロールを開始した後に設定を変更するにはどうすればよいですか? 前もって感謝します!

4

2 に答える 2

3

異なるスパイダーに異なるパイプラインを持たせたい場合は、そのスパイダーのパイプラインを定義するパイプライン リスト属性をスパイダーに設定できます。パイプラインよりも存在を確認します。

class MyPipeline(object):

    def process_item(self, item, spider):
        if self.__class__.__name__ not in getattr(spider, 'pipelines',[]):
            return item
        ...
        return item

class MySpider(CrawlSpider):
    pipelines = set([
        'MyPipeline',
        'MyPipeline3',
    ])

異なるアイテムを異なるパイプラインで処理したい場合は、これを行うことができます:

    class MyPipeline2(object):
        def process_item(self, item, spider):
            if isinstance(item, MyItem):
                ...
                return item
            return item
于 2015-09-26T21:23:39.040 に答える
0

この有益なissue#4196に基づいて、 telnet コンソールと組み合わせることで、実行後でも実行できます。

コマンドの起動時にログに記録されたポート(例: 1234) とパスワードに telnet クライアントを接続しscrapy crawl、次の対話型 Python ステートメントを発行して、現在実行中の を変更しますdownloader

$ telnet  127.0.0.1  6023  # Read the actual port from logs.
Trying 127.0.0.1...
Connected to 127.0.0.1.
Escape character is '^]'.
Username: scrapy
Password: <copy-from-logs>
>>> engine.downloader.total_concurrency
8
>>> engine.downloader.total_concurrency = 32
>>> est()
Execution engine status

time()-engine.start_time                        : 14226.62803554535
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 28
engine.scraper.is_idle()                        : False
engine.spider.name                              : <foo>
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 32
len(engine.slot.scheduler.dqs or [])            : 531
len(engine.slot.scheduler.mqs)                  : 0
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False
于 2020-08-26T20:48:33.753 に答える