0

ラピッド マイナーを使用して、特定のデータから Web サイトをクロールしています。問題は、ウェブサイトを頻繁にクロールしようとすると、悪いデータが提供されることです。

他の IP アドレスから同じデータが表示された場合、別の IP アドレスでクロールしたデータとは異なるデータが表示されます。

この問題を克服する解決策はありますか?

4

1 に答える 1

0

今日の多くの Web サイト、特にマイニングに値する (つまり、リンクされた) Web サイトは、提携している少数の大規模な検索エンジンを除くすべてのクロールを検出して抑止するために洗練された方法を使用しています。

送信するブラウザ コードを変更し、クロールを 1 台のマシンではなくマシンのグループに分散してみてください。AWS で一連のマイクロ インスタンスを実行することは、1 つの大きなインスタンスよりも望ましいことです。また、リクエスト間に遅延を設定するようにしてください。これは、配慮があり、クローラーを偽装するのに役立ちます。

于 2012-10-22T17:17:04.210 に答える