1

サイトがスクレイパーによってスクレイピングされるのを防ぐことは可能ですか?同時に、検索エンジンがコンテンツを解析できるようにします。

ユーザーエージェントをチェックすることは、それらをシミュレートするのが非常に簡単であるため、最良のオプションではありません。

JavaScriptチェックは(GoogleがJSを実行する)オプションである可能性がありますが、優れたパーサーもそれを行うことができます。

何か案は?

4

2 に答える 2

1

リンクアクセス時間を確認できる可能性があります。つまり、フロントページがヒットした場合、フロントページのリンクはすべて「すばやく」ヒットします。

さらに簡単に、ページにいくつかの非表示のリンクをドロップします。ボットはフォローしますが、人々はほとんどフォローしません。

于 2012-05-28T14:44:18.077 に答える
1

LukeをチェックするDNSを使用してください!:)

  1. ユーザーエージェントをチェックして、それ自体が検索エンジンボットとして識別されているかどうかを確認します
  2. その場合は、ページを要求しているIPアドレスを取得します
  3. ホスト名を取得するためのIPアドレスの逆引きDNSルックアップ
  4. 正引きでDNSルックアップホスト名を取得してIPアドレスを取得

ヘルプ記事「GoogleによるGooglebotの検証」で提供されているのと同じアイデア

于 2012-05-28T15:01:51.373 に答える