11

Webページを取得する関数を作成するとします。スクレイピング要求がブロックされないように、実行ごとに異なる IP で実行しますか?

4

4 に答える 4

0

この AWS パイプラインを使用します。 ここに画像の説明を入力

左側のソースにはJAUNTを備えた EC2 インスタンスがあり、URL または HTML ページを Kinesis ストリームにフィードします。Lambda は HTML の解析を行い、Firehose を介してすべてを S3 または Redshift に詰め込みます。JAUNT は、ローテーション IP を使用して標準の WebProxy サービスを介して実行できます。

于 2017-07-27T11:15:34.033 に答える
-2

ファイルが S3 に配置されるか、データが Kinesis または DynamoDB に追加されると、Lambda がトリガーされます。これは、多くの場合、Web スクレイパーが必要とするものとは異なりますが、確かに S3 のようなものはキュー/ジョブ ランナーとして機能する可能性があります。

異なる IP でスクレイピングしますか? 確かに、ラムダは多くのマシンにデプロイされていますが、マシンやその IP を制御できないため、実際には役に立ちません。

于 2015-03-03T07:44:58.980 に答える