ラピッド マイナーを使用して、特定のデータから Web サイトをクロールしています。問題は、ウェブサイトを頻繁にクロールしようとすると、悪いデータが提供されることです。
他の IP アドレスから同じデータが表示された場合、別の IP アドレスでクロールしたデータとは異なるデータが表示されます。
この問題を克服する解決策はありますか?
ラピッド マイナーを使用して、特定のデータから Web サイトをクロールしています。問題は、ウェブサイトを頻繁にクロールしようとすると、悪いデータが提供されることです。
他の IP アドレスから同じデータが表示された場合、別の IP アドレスでクロールしたデータとは異なるデータが表示されます。
この問題を克服する解決策はありますか?
今日の多くの Web サイト、特にマイニングに値する (つまり、リンクされた) Web サイトは、提携している少数の大規模な検索エンジンを除くすべてのクロールを検出して抑止するために洗練された方法を使用しています。
送信するブラウザ コードを変更し、クロールを 1 台のマシンではなくマシンのグループに分散してみてください。AWS で一連のマイクロ インスタンスを実行することは、1 つの大きなインスタンスよりも望ましいことです。また、リクエスト間に遅延を設定するようにしてください。これは、配慮があり、クローラーを偽装するのに役立ちます。