私は1 週間 (1 か月)3000
にURLからダウンロードする必要がある Web インターフェイスを備えた 1 つのプロジェクトを持っています。20000
進行状況を表示するためにチケット システムを使用します。ダウンロードされたもの、ダウンロードが保留されているもの、タイムアウト エラーや同様の問題がある URL などです。現在は for を使用ScrapyD
していますが、 に切り替える予定ScrapyRT
です。単一の URL を実行して結果を取得する方が簡単に見えるため、チケットのステータスを更新します。私の質問は、独立したリクエストをいくつ受け取ることができるScrapyRT
かです。非同期をスクレイピングするために50〜100近くのリクエストを試みましたが、サーバーはただ作業を停止しました。
または、それを行う別の方法がありますか?Scrapy クラスタまたは Frontera は私には向いていません