8

AWS がホストするサーバーでいくつかの Web クローリング ジョブを実行しています。クローラーは e コマース Web サイトからデータをスクレイピングしますが、最近、クローラーは Web サイトから「タイムアウト エラー」を受け取ります。Web サイトが、IP アドレスに基づいて訪問頻度を制限している可能性があります。新しい Elastic-IP アドレスを割り当てると問題は解決しますが、長くは続きません。

私の質問: 新しい IP をインスタンスに自動的かつ動的に割り当てて関連付けるために使用できるサービスはありますか? ありがとう!

4

2 に答える 2

1

TORネットワークを使用したい場合は、次を実行してください:

sudo apt-get install tor 
sudo /etc/init.d/tor start

 netstat -ant | grep 9050 #  Tor port

Java プロジェクトでは、プロキシを次のように設定します。

public static void main(String[] args) {
    System.setProperty("socksProxyHost", "127.0.0.1");
    System.setProperty("socksProxyPort", "9050");

XX回ごとにアプリケーションとtorを再起動するcronジョブをスケジュールできます。

簡単で安全。

于 2014-04-08T20:22:10.223 に答える