python - 接続数が制限されているときに Web ページを高速にクロールする方法

Question

urllib2 を使ってwww.amazon.comから商品情報をクロールするウェブクローラーを書いたのですが、 Amazonは各 IP の接続を 1 つに制限しているようです。

同時にクロールする複数のスレッドを開始すると、が発生しHTTP Error 503: Service Temporarily Unavailableます。より多くのスレッドを開始して高速にクロールしたいのですが、このエラーを修正するにはどうすればよいですか?

score 1 · Accepted Answer

1

短いバージョン: できません。試すのも悪い考えです。

于 2013-04-28T16:28:46.927 に答える

score 0 · Accepted Answer

python requestsモジュールを使用して、プロキシ IP 経由で接続します。コードは次のようになります

import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

ここから HTTP および HTTPS プロキシ IP を取得できるはずです。詳細については、これを参照してください。

score 0 · Accepted Answer

おそらく、製品クエリに Amazon API を使用するように切り替える必要があります。

python - 接続数が制限されているときに Web ページを高速にクロールする方法

3 に答える 3

Related

Reference