7

私は画像をダウンロードするためにスクレイピーを使用していますが、タイムアウトエラーが発生しました:

Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure

ただし、すぐに wget を使用してイメージをダウンロードできます。DOWNLOAD_TIMEOUT (scrapy パラメーター) はデフォルトの 180 秒に設定されているため、これがエラーの根本的な原因ではありません。プロキシと非プロキシでスクレイピーを使用しようとしましたが、どちらも上記のエラーが発生します。

4

1 に答える 1

10

複数のイメージを (特に複数のドメインから) スクレイピングしている場合、ダウンロードは同時に行われ、コマンド ラインから単一のイメージをダウンロードする場合と比較して、各ダウンロードに時間がかかる場合があります。CONCURRENT_REQUESTS設定を減らし、DOWNLOAD_TIMEOUTを増やしてみてください。

scrapy fetch URLScrapy の問題を除外するために画像を取得できることを確認してください。

最後に、リクエスト ヘッダー (ユーザー エージェント、Cookie、リファラーなど) の違いを確認します。ここでの違いが、サーバーからの応答の違いの原因になっている可能性があります。違いを生むヘッダーを見つけることができれば、Scrapy で簡単に変更できます。

于 2013-09-09T03:34:54.277 に答える