python - Scrapy フレームワークのプロキシ IP

Question

PythonとScrapyフレームワークを使用して Web クロールプロジェクトを開発しています。e コマースショッピングサイトから約 10,000 のWeb ページをクロールします。プロジェクト全体は正常に動作していますが、コードをテストサーバーから実稼働サーバーに移動する前に、より優れたプロキシ IP プロバイダーサービスを選択して、スパイダーへの Web サイトへのIP ブロッキングやアクセス拒否について心配する必要がないようにします。

今まで、私はScrapyのミドルウェアを使用して、このようなさまざまなWebサイトで利用可能な無料のプロキシIPリストからIPを手動でローテーションしています

今、私は選択すべきオプションについて混乱しています

http://www.ninjasproxy.com/またはhttp://hidemyass.com/からプレミアムプロキシリストを購入します。
TORを使用する
http://www.hotspotshield.com/のようなVPN サービスを使用する
3つ以上の任意のオプション

score 7 · Accepted Answer

Crawleraは、Web クロールプロジェクト専用に構築されています。たとえば、禁止されるのを避けるためにスマートなアルゴリズムを実装し、非常に大規模で知名度の高い Web サイトをクロールするために使用されます。

免責事項: 私は、Scrapy のコア開発者でもある親会社の Scrapinghub で働いています。

python - Scrapy フレームワークのプロキシ IP

3 に答える 3

Related

Reference