php - 検索エンジンだけにデータを取得させ、他のユーザーには取得させないようにするにはどうすればよいですか?

Question

PHP アプリケーションを開発しました。その主な目的は、データベースからデータを取得することです。マシンリクエストを使用してデータベースからすべてのレコードをフェッチしないようにしたい（つまり、人間以外のリクエスト、つまりCURLなどのメカニズムによって行われたリクエストを意味します。通常、CAPTCHAを介してそのようなリクエストを防ぎます。）

検索エンジンだけに私のデータを取得させ、他の誰もデータを取得させないようにするにはどうすればよいでしょうか?

関連:人間以外が生成したリクエストの防止

score 0 · Accepted Answer

質問を開くために、リンクをクリックすると、ブラウザが stackOverflow サーバーにリクエストを送信し、このページを要求しました。これは cURL が行うことと同じですが、JavaScript を処理できない点が異なります。繰り返しになりますが、ブラウザーに代わって JavaScript を解析しませんでした。またまた番組でした。

私が本当に強調する必要があったのは、事実上、マシンがユーザーアクティビティを偽造するのを防ぐ方法はないということです。

しかし、興味がある場合は、ここにいくつかのトリックがあります。個人的には、人間が直接関与しない方法を好みます。

ページにキャプチャチャレンジを追加します。
ターゲットユーザーのほとんどが最新のブラウザーを使用する現代人である場合は、Ajax ページの読み込みを使用します。これにより、ほとんどのローエンドスクレイパーが保持されますが、すべてではありません。Google は一部の ajax リクエストを処理できます。ハッシュバングを参照してください。
ページにキャプチャチャレンジを追加します。
ターゲットユーザーのほとんどが最新のブラウザーを使用する現代人である場合は、Ajax ページの読み込みを使用します。これにより、ほとんどのローエンドスクレイパーが保持されますが、すべてではありません。Google は一部の ajax リクエストを処理できます。ハッシュバングを参照してください。
ユーザーの IP アドレスをログに記録し、短時間で数千件のヒットを記録したユーザーを探します。
サイトにフラッドコントロールを追加します。フォーム送信 (たとえば) が 1 分間に複数回処理されることを禁止できます。
フォームにトークンを追加して検証します。これにより、少なくともクロールが 2 段階のプロセスになります。
そして、あなたのサイトがデータベースから少量のデータを取得するようにします。たとえば、アプリケーションがカレンダーの場合、すべてのリクエストで 1 年を超える範囲の日付を表示することを禁止できます。

ユーザーエージェントでボットをブロックすることはできません。cURL およびその他のプログラムは、要求を行うときに、ユーザーが指定した別のユーザーエージェントを使用できます。

Google ウェブマスターセントラルで Googlebot の動作を調整できます。フラッド制御メカニズムと一致するようにしてください。また、ユーザーエージェントに依存しないように Google がアドバイスしていることを覚えておいてください。

php - 検索エンジンだけにデータを取得させ、他のユーザーには取得させないようにするにはどうすればよいですか?

1 に答える 1

Related

Reference