検出されたくない Web クローラーを検出するためのオプションは何ですか?
(検出技術をリストアップすることで、スマート ステルス クローラー プログラマーがより優れたスパイダーを作成できるようになることはわかっていますが、スマート ステルス クローラーをいずれにせよブロックできるとは思いません。間違いを犯したものだけをブロックするだけです。)
googlebot や Yahoo! などの優れたクローラーについて話しているのではありません。啜る。次の場合、ボットは優れていると考えます。
- ユーザーエージェント文字列で自分自身をボットとして識別します
- robots.txt を読み取ります (そしてそれに従います)
一般的なユーザー エージェントの背後に隠れ、帯域幅を使用し、決して見返りを与えない悪質なクローラーについて話しているのです。
更新されたリストを作成できるトラップドアがいくつかあります(thanks Chris, gs) :
- robots.txt にリストされている (禁止としてマークされている) ディレクトリのみを追加します。
- 目に見えないリンクを追加する (rel="nofollow" とマークされている可能性がありますか?)、
- スタイル="表示: なし;" リンクまたは親コンテナ上
- より高い z-index を持つ別の要素の下に配置
- CapitaLiSaTioN を理解していない人を検出し、
- 返信を投稿しようとする人を検出しますが、常にキャプチャに失敗します。
- POST 専用リソースへの GET リクエストを検出する
- リクエスト間の間隔を検出する
- 要求されたページの順序を検出する
- 誰が (一貫して) http 経由で https リソースを要求しているかを検出する
- 画像ファイルを要求していない人を検出します (これを既知の画像対応ブラウザのユーザーエージェントのリストと組み合わせると、驚くほどうまく機能します)
一部のトラップは、「良い」ボットと「悪い」ボットの両方によってトリガーされます。それらをホワイトリストと組み合わせることができます:
- 罠を仕掛ける
- それは要求し
robots.txt
ますか? - 従ったため、別のトラップをトリガーしません
robots.txt
ここでもう 1 つ重要なことは
、視覚障害者がスクリーン リーダーを使用することを考慮してください。人々があなたに連絡する方法を提供するか、(画像以外の) キャプチャを解決してブラウジングを続けることです。
通常の人間の訪問者として自分自身を偽装しようとする Web クローラーを自動的に検出するには、どのような方法がありますか。
更新
問題は、すべてのクローラーをどのようにキャッチするかということではありません。問題は、クローラーを検出する可能性を最大化するにはどうすればよいかということです。
一部のスパイダーは非常に優れており、実際に html、xhtml、css、javascript、VB スクリプトなどを解析して理解
します。
ただし、一部のクローラーがどれほど愚かであるかに驚かれることでしょう。(私の意見では)愚かさの最も良い例は次のとおりです。すべての URL をリクエストする前に小文字にキャストします。
そして、さまざまなトラップドアを回避するには「十分ではない」クローラーがたくさんあります.