5

craigslistsfbay.craigslist.orgでHTTPGETを実行しようとしています。これが私の(ruby)コードです。これは本当に単純です。

require 'net/http'
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org'))

「このIPは自動的にブロックされました」というエラーが表示されます。

この動作は、AmazonEC2またはherokuでこれを試した場合にのみ発生します。自分のコンピューターのローカルホストで再試行すると、正しい結果が得られます。これはAmazonEC2と関係がありますか?

他の人も同じ問題を抱えているのではないかと思います。EC2からクレイグリストにアクセスするにはどうすればよいですか?

4

1 に答える 1

9

Craigslist が Amazon EC2 の主要な IP 範囲から (ユーザー エージェントではなく) IP によってブロックされていることを確認できます。他の場所でも機能しますが、ボリュームによって他の IP がブロックされる可能性があると思います。

torで回避できます。さらに重要なことに、このスタックオーバーフローの質問では、craigslist マッシュアップで使用されるデータ ソースについて説明しています

すべての CIDR がブロックされていない可能性があると仮定して、ブラジルの EC2 もテストしました。ブエノなし。

于 2013-01-21T14:32:46.067 に答える