Webページを取得する関数を作成するとします。スクレイピング要求がブロックされないように、実行ごとに異なる IP で実行しますか?
質問する
8817 次
4 に答える
0
左側のソースにはJAUNTを備えた EC2 インスタンスがあり、URL または HTML ページを Kinesis ストリームにフィードします。Lambda は HTML の解析を行い、Firehose を介してすべてを S3 または Redshift に詰め込みます。JAUNT は、ローテーション IP を使用して標準の WebProxy サービスを介して実行できます。
于 2017-07-27T11:15:34.033 に答える
-2
ファイルが S3 に配置されるか、データが Kinesis または DynamoDB に追加されると、Lambda がトリガーされます。これは、多くの場合、Web スクレイパーが必要とするものとは異なりますが、確かに S3 のようなものはキュー/ジョブ ランナーとして機能する可能性があります。
異なる IP でスクレイピングしますか? 確かに、ラムダは多くのマシンにデプロイされていますが、マシンやその IP を制御できないため、実際には役に立ちません。
于 2015-03-03T07:44:58.980 に答える