8
  1. たとえば、異なる HTML を含む 2 つの URL があるとします。今、私は2つの個別のスパイダーをそれぞれ1つずつ作成し、両方のスパイダーを一度に実行したいと考えています。スクレイピーでは、一度に複数のスパイダーを実行できます。

  2. 複数のスパイダーを作成した後のスクレイピーで、6時間ごとに実行するようにスケジュールするにはどうすればよいですか (cron ジョブのようなものかもしれません)

上記のことをまったく知りませんでした。例を挙げて上記のことを実行する方法を教えてください。

前もって感謝します。

4

4 に答える 4

3

おそらく、OS レベルから一度に 2 つのスクレイピー スクリプトを実行するのが最も簡単でしょう。どちらも同じデータベースに保存できる必要があります。両方のスクレイピー スクリプトを呼び出して同時に実行するシェル スクリプトを作成します。

scrapy runspider foo &
scrapy runspider bar

必ずこのスクリプトを実行可能にしてくださいchmod +x script_name

6 時間ごとに cronjob をスケジュールするcrontab -eには、端末に入力し、次のようにファイルを編集します。

* */6 * * * path/to/shell/script_name >> path/to/file.log

最初の * は分、次に時間などで、アスタリスクはワイルドカードです。これは、6 で割り切れる時間、または 6 時間ごとにいつでもスクリプトを実行することを示しています。

于 2012-06-08T06:36:59.137 に答える
2

複数のクローラーを処理するには、scrapyd を使用する必要があります http://doc.scrapy.org/en/latest/topics/scrapyd.html

于 2012-11-11T16:43:35.380 に答える