2

ユーザー エージェントが 1 つの指標であることは知っていますが、これは簡単になりすますことができます。訪問者が実際にボットであることを示す信頼できる指標は他にありますか? 一貫性のないヘッダー? 画像/JavaScript が要求されているかどうか ありがとう!

4

6 に答える 6

4

CVSTrac はハニーポットページを使用してこれを実現します。クローラーがたどり着くサイトのどこかにリンクされているページですが、人間は通常それを無視します。CVSTrac は、ユーザーが自分が人間であることを証明できるようにすることで、さらに一歩進んでいます。

于 2009-08-27T18:30:47.687 に答える
3

「画像/JavaScriptが要求されているかどうか?」私はこれを選びますが、最近Googleや他の人が画像やJavaScriptファイルを要求しています。

リクエストの時間速度はどうですか?ボットは、人間よりもはるかに速くコンテンツを読み取ります。

于 2009-08-27T18:28:16.663 に答える
2

私たちが求めるのは次の4つです。

  • ユーザー エージェント文字列。偽造するのは非常に簡単ですが、多くの場合、クローラーは独自のユーザー エージェント文字列を使用します。

  • ページのアクセス速度。0.5 秒ごとに複数のページにアクセスする場合、通常は適切な指標です。

  • HTML のみを要求する場合、またはページ全体を要求する場合。一部のクローラーは、HTML 構造のみを要求します。これは通常、良いヒントです。

  • 着信 URL

于 2009-08-27T18:31:46.843 に答える
0

それはキャプチャが発明されたものではありませんか?

于 2009-08-27T18:29:41.527 に答える