screen-scraping - 悪意のある Web クローラーの特定

Question

不正利用のために情報を収集する Web クローラーを特定する手法があるかどうか疑問に思っています。端的に言えば、サイトのカーボンコピーを作成するためのデータ窃盗です。

理想的には、このシステムが不明なソースからのクロールパターンを検出し (Google クローラーのリストにない場合など)、偽の情報をスクレイピングクローラーに送信します。

防御側として、定期的にサイトにヒットする未知のクローラーを検出すると、攻撃者はその間隔をランダム化します。
防御側として同じエージェント/IP を検出すると、攻撃者はエージェントをランダム化します。

そして、これは私が迷子になるところです - 攻撃者が間隔とエージェントをランダム化した場合、同じネットワークからサイトにアクセスするプロキシとマシンをどのように差別しないのでしょうか?

疑わしいエージェントを JavaScript と Cookie のサポートでチェックしようと考えています。ボギーが一貫してどちらもできない場合、それは悪者です。

他に何ができますか？履歴データをオンザフライで迅速に分析するために設計されたアルゴリズムやシステムはありますか?

score 9 · Accepted Answer

私の解決策は、罠を作ることです。robots.txt によってアクセスが禁止されているページをサイトに配置します。ページにリンクを作成しますが、CSS で非表示にしてから、そのページにアクセスする人を IP 禁止します。

これにより、犯罪者は robots.txt に従わざるを得なくなります。つまり、重要な情報やサービスを彼から永久に遠ざけ、カーボンコピーのクローンを役に立たなくすることができます。

score 2 · Accepted Answer

IP やタイミング、間隔で認識しようとしないでください。クローラーに送信したデータを使用して追跡してください。

既知の適切なクローラーのホワイトリストを作成します。通常どおりコンテンツを提供します。残りの部分については、あなただけが探す方法を知っている独自のコンテンツを追加したページを提供してください。その署名を使用して、後で誰があなたのコンテンツをコピーしているかを特定し、それらをブロックします。

score 2 · Accepted Answer

また、低賃金の国でブラウザを使用してサイトにアクセスし、すべての情報を記録する人を雇わないようにするにはどうすればよいでしょうか? robots.txt ファイルをセットアップし、セキュリティインフラストラクチャに投資して DoS 攻撃を防ぎ、コードを難読化し (アクセス可能な場合は JavaScript など)、発明の特許を取得し、サイトの著作権を取得します。法務担当者に、誰かがあなたをだますことを心配させてください。

screen-scraping - 悪意のある Web クローラーの特定

3 に答える 3

Related

Reference