1

urllib2 を使ってwww.amazon.comから商品情報をクロールするウェブクローラーを書いたのですが、 Amazonは各 IP の接続を 1 つに制限しているようです。

同時にクロールする複数のスレッドを開始すると、 が発生しHTTP Error 503: Service Temporarily Unavailableます。より多くのスレッドを開始して高速にクロールしたいのですが、このエラーを修正するにはどうすればよいですか?

4

3 に答える 3

1

短いバージョン: できません。試すのも悪い考えです。

于 2013-04-28T16:28:46.927 に答える
0

python requestsモジュールを使用して、プロキシ IP 経由で接続します。コードは次のようになります

import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

ここから HTTP および HTTPS プロキシ IP を取得できるはずです。詳細については、これを 参照してください。

于 2013-04-28T17:20:00.997 に答える
0

おそらく、製品クエリに Amazon API を使用するように切り替える必要があります。

于 2013-04-28T16:33:03.297 に答える