python - Scrapy に基づいて永続的に実行する Web クローラーを構築する方法は?

Question

Scrapy に基づいて Web クローラーを構築し、複数のニュースポータル Web サイトからニュース画像を取得したいと考えています。このクローラーを次のようにしたい:

永久に実行

更新を取得するために、定期的にいくつかのポータルページに再アクセスすることを意味します。
スケジュールの優先順位。

URL の種類ごとに異なる優先順位を付けます。
マルチスレッドフェッチ

Scrapy のドキュメントを読みましたが、リストした内容に関連するものは見つかりませんでした (十分に注意していない可能性があります)。その方法を知っている人はいますか？または、それについてのアイデア/例を挙げてください。ありがとう！

score 12 · Accepted Answer

Scrapy は、Web サイトのスパイダーリングのためのフレームワークです。そのため、基準をサポートすることを目的としていますが、すぐに使用できるわけではありません。一部のタスクについては、おそらくモジュールに比較的慣れる必要があります。

永久に実行できるかどうかは、Scrapy を呼び出すアプリケーション次第です。あなたはクモにどこへ行くか、いつそこへ行くかを伝えます。
優先度を与えることは、Scrapy に作成してプラグインする必要があるスケジューラミドルウェアの仕事です。これに関するドキュメントはむらがあり、コードを見ていません。原則として、関数はそこにあります。
Scrapy は本質的に、基本的に非同期であり、これはあなたが望んでいるものかもしれません: リクエスト A がまだ未処理である間にリクエスト B を満たすことができます。基礎となる接続エンジンは真正なマルチスレッド化を妨げませんが、Scrapy はスレッド化サービスを提供しません。

Scrapy はアプリケーションではなくライブラリです。モジュールのユーザーが作成する必要がある作業 (コード) は、かなりの量です。

score 0 · Accepted Answer

running-forever の要件について、ここにいくつかの詳細があります。

シグナルをキャッチする必要があり、シグナルに接続されたメソッドで例外を発生signals.spider_idleさせる必要があります。DontCloseSpider保留中のspider_idleリクエストがない場合、シグナルはスクレイピーエンジンに送信され、デフォルトでスパイダーはシャットダウンします。このプロセスを傍受できます。

コードブローを参照してください：

import scrapy
from scrapy.exceptions import DontCloseSpider
from scrapy.xlib.pydispatch import dispatcher

class FooSpider(scrapy.Spider):
    def __init__(self, *args, **kwargs):
        super(FooSpider, self).__init__(*args, **kwargs)
        dispatcher.connect(self.spider_idle, signals.spider_idle)

    def spider_idle(self):
        #you can revisit your portal urls in this method
        raise DontCloseSpider

python - Scrapy に基づいて永続的に実行する Web クローラーを構築する方法は?

2 に答える 2

Related

Reference