python - スレッドごとに異なるプロキシを持つマルチスレッドクローラー、正しい方法?

Question

約 1,000 万ページで実行する予定のマルチスレッドクローラーを作成します。高速化するには、約 10 ~ の異なるページを同時に取得する必要があります。

各クローラースレッドは異なるプロキシを使用し、結果をキューにプッシュします。反対側には、キューから結果をフェッチし、解析して DB に挿入するワーカーがいくつかあります。

それは正しいアプローチですか？あまりにも多くの結果をキューに保存すると問題が発生しますか? ロックについて心配する必要がありますか？（キューモジュールを使用）。私のニーズに最適な HTTP ライブラリはどれですか? (httplib2/urllib2)。

各スレッドを作成するときに、リクエストオブジェクトの新しいインスタンスを各スレッドに渡す必要がありますか?それとも、リクエストオブジェクトを移動してスレッドでその "getPage" 関数を使用する必要がありますか?

ありがとう。

score 0 · Accepted Answer

Scrapyが進むべき道です。

複数のプロキシを使用するようにプロキシミドルウェアを設定する方法を説明するページを次に示します: http://mahmoud.abdel-fattah.net/2012/04/16/using-scrapy-with-different-many-proxies/

score 0 · Accepted Answer

0

于 2012-06-17T13:25:58.187 に答える

2 に答える 2