7

私は現在、フロント エンド クライアントを含むアプリケーションを開発しているチームの一員です。

このクライアントを介してユーザー データを送信します。各ユーザーにはユーザー ID があり、クライアントは RESTful API を介してサーバーにデータを要求します。

たとえば、本のデータベースがあり、ユーザーは著者が書いた最新の 3 冊の本を取得できるとします。私たちはユーザーの時間を大切にしており、ユーザーが明示的な登録なしで製品の使用を開始できるようにしたいと考えています。

私たちはデータベースを大切にしており、独自の専用ソフトウェアを使用してデータを入力し、できる限り保護したいと考えています。

したがって、基本的に質問は次のとおりです。

Webスクレイピングから身を守るために何ができるでしょうか?

私たちのデータを保護するためのいくつかのテクニックについて知りたいです。ユーザーが著者検索パネルにすべての著者名を入力して、すべての著者が書いた上位 3 冊の本を取得することを防止したいと考えています。

提案された読書をいただければ幸いです。

私たちはキャプチャを認識しており、可能な限りキャプチャを避けたいと思っています。

4

2 に答える 2

5

これを防ぐための主な戦略は次のとおりです。

  • 登録が必要なため、ユーザーごとのリクエストを制限できます
  • 登録ユーザーと未登録ユーザーのキャプチャ
  • IPの律速
  • JavaScriptが必要-JSを読み取ることができるスクレーパーを書くのは難しい
  • ロボットのブロック、およびボットの検出(リクエスト率、隠しリンクトラップなど)
  • データ中毒。誰も欲しがらない本やリンクを入れて、すべてを盲目的に収集するボットのダウンロードを停止させます。
  • 突然変異。スクレーパーが目的のコンテンツを見つけられない可能性があるように、テンプレートを頻繁に変更してください。

キャプチャは非常に柔軟に使用できることに注意してください。

例:毎日の各IPの最初の本はキャプチャ保護されていません。ただし、2冊目の本にアクセスするには、キャプチャを解決する必要があります。

于 2013-01-17T16:43:31.467 に答える