ランディング ページ (index.html または同等のページ) をダウンロードしたい Web サイトのかなり長いリストがあります。私は現在、Scrapy を使用しています (その背後にいる人たちへの愛が溢れています。これは素晴らしいフレームワークです)。Scrapy は、この特定のタスクで私が望むよりも遅く、タスクがどれほど単純であるかを考えると、wget または他の代替手段がより高速になるかどうか疑問に思っています。何か案は?
(これが私が Scrapy で行っていることです。このタスクのために Scrapy を最適化するためにできることはありますか?)
だから、私は次のような開始URLリストを持っています
start_urls=[google.com yahoo.com aol.com]
そして、各応答からテキストをスクレイピングし、これを xml に保存します。複数のドメインを許可するには、オフサイトミドルウェアを無効にする必要があります。
Scrapy は期待どおりに動作しますが、遅いようです (1 時間に約 1000 または 4 秒ごとに 1)。単一のスパイダーの実行中に CONCURRENT_REQUESTS_PER_SPIDER の数を増やすことでこれを高速化する方法はありますか? 他に何か?