不正利用のために情報を収集する Web クローラーを特定する手法があるかどうか疑問に思っています。端的に言えば、サイトのカーボン コピーを作成するためのデータ窃盗です。
理想的には、このシステムが不明なソースからのクロール パターンを検出し (Google クローラーのリストにない場合など)、偽の情報をスクレイピング クローラーに送信します。
- 防御側として、定期的にサイトにヒットする未知のクローラーを検出すると、攻撃者はその間隔をランダム化します。
- 防御側として同じエージェント/IP を検出すると、攻撃者はエージェントをランダム化します。
そして、これは私が迷子になるところです - 攻撃者が間隔とエージェントをランダム化した場合、同じネットワークからサイトにアクセスするプロキシとマシンをどのように差別しないのでしょうか?
疑わしいエージェントを JavaScript と Cookie のサポートでチェックしようと考えています。ボギーが一貫してどちらもできない場合、それは悪者です。
他に何ができますか?履歴データをオンザフライで迅速に分析するために設計されたアルゴリズムやシステムはありますか?