python - Scrapy スロットリングとリクエストスケジューリングのみのマイクロサービス

Question

現在、Python リクエストを使用して約 20,000 ページの json をダウンロードしています。スクレイピングしているサーバーによるレート制限と、おそらく非同期呼び出し/スケジューリングの欠如により、ボトルネックが発生しています。スクレイピングに関連するこれらの問題に対処する機能があると聞いたので、スクレイピーは良い解決策になると思いました. 問題は、それらが私が必要とする唯一の部分であり、スパイダリング/解析/orm/などは必要ありません。ドキュメントを見ると、これらのコンポーネントだけをどのように分離するかが明確ではありませんでした。スクレイピーが行うことのこれらの部分だけのためのマイクロサービスが必要です。Flask から Scrapy の Django へ。grequests が非同期に役立つ可能性があることを確認しましたが、そのルートに行く場合でも、レート制限と失敗したリクエストを再試行する方法が必要です。誰かが私を正しい方向に向けることができますか?

score -1 · Accepted Answer

if want you need is something to help you on rate limiting, I would recommend using a proxy rotation service, Scrapy won't be necessary if you already have your crawler ready.

I would recommend Crawlera or proxymesh.

python - Scrapy スロットリングとリクエスト スケジューリングのみのマイクロサービス

1 に答える 1

Related

Reference

python - Scrapy スロットリングとリクエストスケジューリングのみのマイクロサービス