web-crawler - ウェブサイトをクロールすると不正なデータが返される

Question

ラピッドマイナーを使用して、特定のデータから Web サイトをクロールしています。問題は、ウェブサイトを頻繁にクロールしようとすると、悪いデータが提供されることです。

他の IP アドレスから同じデータが表示された場合、別の IP アドレスでクロールしたデータとは異なるデータが表示されます。

この問題を克服する解決策はありますか?

score 0 · Accepted Answer

今日の多くの Web サイト、特にマイニングに値する (つまり、リンクされた) Web サイトは、提携している少数の大規模な検索エンジンを除くすべてのクロールを検出して抑止するために洗練された方法を使用しています。

送信するブラウザコードを変更し、クロールを 1 台のマシンではなくマシンのグループに分散してみてください。AWS で一連のマイクロインスタンスを実行することは、1 つの大きなインスタンスよりも望ましいことです。また、リクエスト間に遅延を設定するようにしてください。これは、配慮があり、クローラーを偽装するのに役立ちます。

web-crawler - ウェブサイトをクロールすると不正なデータが返される

1 に答える 1

Related

Reference