3

私はScrapyを初めて使用しますが、Pythonについてはそれほど印象的ではありません。Webサイトからデータをスクレイピングするようにスクレイパーを設定しましたが、プロキシを使用していますが、同じプロキシを何度も使用すると、アクセスが速すぎることを示すページがリクエストに表示されます。 (HTTPステータスコード200)。

私のスクレーパーはページのステータスコードを正常と見なしているため、必要なデータが見つからず、次のページに移動します。

これらのページがいつ表示されるかはHtmlXPathSelectorで確認できますが、Scrapyにそのページを再試行するように通知するにはどうすればよいですか?

4

1 に答える 1

3

Scrapyにはretryミドルウェアが組み込まれています。それをサブクラス化し、メソッドをオーバーライドして、process_responseあまりにも多くのページにすばやくアクセスしていることを通知しているページが表示されているかどうかを確認するチェックを含めることができます。

于 2013-03-24T19:29:20.590 に答える