python - グラブ\スパイダープロテクション

Question

一般的な統計情報と検索機能へのインターフェイスを提供するサイト\リソースがあります。この検索操作はコストがかかるため、(検索エンジンからではなく、人からの) 頻繁かつ継続的な (つまり自動) 検索要求を制限したいと考えています。

何らかのインテリジェンス取得保護を実行する既存の手法やフレームワークは数多くあると思います。そのため、一からやり直す必要はありません。mod_wsgi を通じて Python と Apache を使用しています。

私は mod_evasive を知っています (それを使用しようとします) が、他の手法にも興味があります。

score 1 · Accepted Answer

誰かがあなたのウェブサイトとデータを正確に探しているなら、本当に価値があります - この場合、十分に賢い攻撃者を止めるものは何もありません.

試してみる価値のあることがいくつかありますが：

特定の IP およびユーザーエージェントからの検索使用のカウンターを保持します。分単位、時間単位、日単位のしきい値に達したときにブロックします。
潜在的に有害な IP または脅威レベルのブラックリストを使用します (たとえば、そのためにCloudflare APIを使用できます)。
頻繁な検索結果をキャッシュしてコストを削減
ちょっとクレイジーかもしれませんが、その統計を画像やフラッシュ/Java アプレット経由でレンダリングできます。
前のものと少し似ています。検索結果にアクセスするには、トリッキーな API を使用します。たとえば、WebSockets 上の ProtocolBuffers を使用できます。そのため、誰かがそれを取得するために本格的なブラウザを必要とするか、少なくとも node.js に関するいくつかの策略を構築する必要があるでしょう。欠点 - 古いブラウザーを使用すると、正当なクライアントを失うことになります。

score 0 · Accepted Answer

robots.txt ファイルを試すことができます。アプリケーションのルートに配置しただけだと思いますが、その Web サイトには詳細が記載されているはずです。構文はDisallowあなたが探しているものです。

もちろん、すべてのロボットがそれを尊重するわけではありませんが、すべてのロボットが尊重すべきです。すべての大企業 (Google、Yahoo など) はそうするでしょう。

動的 URL の禁止に関するこの質問にも興味があるかもしれません。

2 に答える 2