0

Scrapy を使用して、約 70k アイテムの Web サイトをスクレイピングしようとしていました。しかし、約200個のアイテムをスクレイピングした後は毎回、残りのエラーがポップアップします:

scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed

私のスパイダーが Web サイトによってブロックされたためだと思います。ここで提案されているランダムなユーザー エージェントを使用してみましたが、問題はまったく解決しません。良い提案はありますか?

4

2 に答える 2

0

誰かにあなたの質問に答えさせたり、情報を提供させたりすることはできますか? Web サーバーを強制することもできません。せいぜい、Web サーバーが応答するクライアントになりすますことができます。そのためには、サーバーがリクエストに応答するかどうかを決定するために使用する基準を把握する必要があります。その後、基準を満たすリクエストを作成 (試行) できます。

于 2016-02-02T17:09:21.923 に答える