14

PythonScrapyフレームワークを使用して Web クロール プロジェクトを開発しています。e コマース ショッピング サイトから約 10,000 のWeb ページをクロールします。プロジェクト全体は正常に動作していますが、コードをテストサーバーから実稼働サーバーに移動する前に、より優れたプロキシ IP プロバイダーサービスを選択して、スパイダーへの Web サイトへのIP ブロッキングやアクセス拒否について心配する必要がないようにします。

今まで、私はScrapyのミドルウェアを使用して、このようなさまざまなWebサイトで利用可能な無料のプロキシIPリストからIPを手動でローテーションしています

今、私は選択すべきオプションについて混乱しています

  1. http://www.ninjasproxy.com/またはhttp://hidemyass.com/からプレミアム プロキシ リストを購入します。

  2. TORを使用する

  3. http://www.hotspotshield.com/のようなVPN サービスを使用する

  4. 3つ以上の任意のオプション

4

3 に答える 3

7

Crawleraは、Web クロール プロジェクト専用に構築されています。たとえば、禁止されるのを避けるためにスマートなアルゴリズムを実装し、非常に大規模で知名度の高い Web サイトをクロールするために使用されます。

免責事項: 私は、Scrapy のコア開発者でもある親会社の Scrapinghub で働いています

于 2013-10-19T01:07:54.270 に答える