2

私は 1 つの Web サイトをクロールし、いくつかのコンテンツと画像を解析していますが、100 ページ程度の単純なサイトであっても、その作業には何時間もかかります。以下の設定を使用しています。どんな助けでも大歓迎です。私はすでにこの質問を見てきました - Scrapy の Scrapyd は、スパイダーのスケジューリングでは遅すぎますが、多くの洞察を集めることができませんでした。

EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75
4

1 に答える 1

5

Web サイトが正常に応答していることを確認しますか?

DOWNLOAD_DELAY = 0.75 を設定すると、リクエストが順次になり、リクエスト間に 0.75 秒の遅延が追加されます。これを削除すると、クロールは確かに高速になりますが、ドメインごとに 12 の同時リクエストがあるため、Web サイトに積極的にアクセスしすぎないように注意してください。

遅延があっても数時間はかからないはずなので、ウェブサイトが遅いか応答がないかどうか疑問に思っています. 一部の Web サイトでは、ボットに対してこれを行います。

于 2012-08-14T13:20:38.827 に答える