0

Scrapy 0.16.4 を使用しています

このコードを使用して、ダウンロードの遅延とユーザー エージェントを変更しました。

DOWNLOAD_DELAY = 2
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.97 Safari/537.22 AlexaToolbar/alxg-3.1"

これが機能しているかどうかはわかりませんが、そのサイトのすべてのページを完全にクロールすることはできません。それはいつも私にランダムなスクレイプアイテムを与えてくれます。時には13個、時には30個、時には52個のスクレイピングアイテムを手に入れました。

問題は何ですか?

4

2 に答える 2

0

おそらく、サイトがキャプチャであなたをブロックします.response.urlを印刷して、リファラーを取得しているかどうかを確認し、DOWNLOAD_DELAYを10に設定してみてください.10秒かかる場合は、スパイダーに設定してURLを印刷できます.それが機能していることを印刷します。

于 2013-02-28T16:25:23.890 に答える