2

ボットが私のウェブページからすべてのコンテンツをコピーするという問題に直面しています (私はかなり頻繁に更新しようとしています)。

それらを禁止するか、コードを難読化してコピーをより困難にしようとしています。しかし、彼らはこれらの制限を克服する方法を見つけました。

1 分あたりのヒット数 (または X 時間、必ずしも分ではありません) を制限したいと思いますが、キャプチャを使用してこれらの制限を克服します。たとえば、過去 5 分間に 10 ページを超えるページをリクエストした場合は、Captcha を使用して人間であることを証明する必要があります。そのため、ユーザーが正当なユーザーであれば、引き続き Web サーフィンを行うことができます。

コンテンツページでのみ行いたいです(より効率的に行うため)。MemCached も考えたのですが、サーバーに借りがないので使えません。もし私がサーブレットを使っていたら、HashMap などを使うでしょうが、私は PHP を使っているので、まだ解決策を考えようとしています。

1 秒あたりのヒット数が多いため、MySql (またはデータベース) を解決策とは考えていません。そして、数分前のリクエストの後に削除する必要があり、不要で非効率的なトラフィックが大量に発生します。

何か案は?

要約: Web ページのセクションで 1 分あたりのヒット数が多すぎる場合は、PHP で Captcha を効率的に使用して制限したいと考えています。たとえば、過去 5 分間に 10 ページを超えるページをリクエストした場合は、Captcha を使用して人間であることを証明する必要があります。

4

1 に答える 1

2

あなたの質問はインターネットの精神に反します。

  1. 誰もがみんなからコピー/借りる
  2. すべての検索エンジンには、Web上の他のすべてのコピーがあります

あなたが抱えている問題は、これらのボットがあなたのトラフィックを盗んでいるということだと思いますか?その場合は、コンテンツを合法的に使用できるようにするAPIを実装してみることをお勧めします。

このようにしてアクセスを制御でき、重要なことに、コンテンツを使用する見返りにサイトへのリンクバックを要求できます。このように、あなたのサイトはコンテンツのナンバーワンでなければなりません。このポリシーを実装するためにAPIは本当に必要ありません。

ユーザーアクセスの制限を主張する場合は、次の選択肢があります。

  1. javascriptソリューションを使用し、Ajaxを使用してコンテンツをページにロードします。これでも、最高のボットをだますことはありません。
  2. すべてのコンテンツをユーザー名/パスワードシステムの背後に置きます。
  3. 問題のあるIPをブロックする-これはメンテナンスの悪夢であり、保証はありませんが、おそらく役立つでしょう。

問題は、コンテンツをGoogleで見つけて、他のボットに制限したい場合、不可能を求めていることです。

あなたの最善の選択肢は、APIを作成し、それを阻止しようとするのではなく、あなたのものをコピーする人々を制御することです。

于 2012-09-01T14:15:33.007 に答える