python - Scrapyでユーザーエージェントと遅延時間を変更するには?

Question

Scrapy 0.16.4 を使用しています

このコードを使用して、ダウンロードの遅延とユーザーエージェントを変更しました。

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

これが機能しているかどうかはわかりませんが、そのサイトのすべてのページを完全にクロールすることはできません。それはいつも私にランダムなスクレイプアイテムを与えてくれます。時には13個、時には30個、時には52個のスクレイピングアイテムを手に入れました。

問題は何ですか？

score 0 · Accepted Answer

おそらく、サイトがキャプチャであなたをブロックします.response.urlを印刷して、リファラーを取得しているかどうかを確認し、DOWNLOAD_DELAYを10に設定してみてください.10秒かかる場合は、スパイダーに設定してURLを印刷できます.それが機能していることを印刷します。

python - Scrapyでユーザーエージェントと遅延時間を変更するには?

2 に答える 2

Related

Reference