私は単純なスクレーパーをコーディングしました。その仕事は、サイトのいくつかの異なるページに移動することです。いくつかの解析を行い、そうでなければ AJAX 経由で呼び出されるいくつかの URL を呼び出し、データをデータベースに保存します。
問題は、スクレイパーの実行後に IP がブロックされることがあるということです。IP がブロックされないようにするには、どのような手順を実行できますか? 推奨されるプラクティスはありますか? リクエスト間に 5 秒のギャップを追加しましたが、ほとんど効果がありません。サイトは中規模で (複数の URL をスクレイピングする必要があります)、インターネット接続が遅いため、スクリプトは 1 時間以上実行されます。より高速なネット接続 (ホスティング サービスなど) を使用すると効果がありますか?
基本的には、行儀の良いボットをコーディングしたいと考えています。
最後に、私は POST やスパムではありません。
編集: スクリプトを 4 ~ 5 の部分に分割し、1 日のさまざまな時間に実行すると思います。