python - 404: Scrapy を使用してスクレイピングしているときに Web サイトによってブロックされないようにする方法はありますか

Question

Scrapy を使用して、約 70k アイテムの Web サイトをスクレイピングしようとしていました。しかし、約200個のアイテムをスクレイピングした後は毎回、残りのエラーがポップアップします:

scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed

私のスパイダーが Web サイトによってブロックされたためだと思います。ここで提案されているランダムなユーザーエージェントを使用してみましたが、問題はまったく解決しません。良い提案はありますか？

score 0 · Accepted Answer

誰かにあなたの質問に答えさせたり、情報を提供させたりすることはできますか? Web サーバーを強制することもできません。せいぜい、Web サーバーが応答するクライアントになりすますことができます。そのためには、サーバーがリクエストに応答するかどうかを決定するために使用する基準を把握する必要があります。その後、基準を満たすリクエストを作成 (試行) できます。

python - 404: Scrapy を使用してスクレイピングしているときに Web サイトによってブロックされないようにする方法はありますか

2 に答える 2

Related

Reference