4

私の Web サイトにはデータベース ルックアップがあります。CAPTCHA を入力すると、5 分間のルックアップ時間が得られます。自動化されたスクリプトを検出するためのカスタム コードもあります。誰かが私のサイトをデータマイニングしたくないので、これを行います。

問題は、Google がサイトをクロールするときに検索結果が表示されないことです。誰かがルックアップの結果にある文字列を検索している場合は、ググってこのページを見つけてもらいたいです。

私にとって明らかな解決策は、PHP 変数を使用し$_SERVER['HTTP_USER_AGENT']て CAPTCHA と Google ボットのカスタム セキュリティ コードをバイパスすることです。私の質問は、これが賢明かどうかです。

Google のキャッシュを使用して、CAPTCHA に入力することなくルックアップ結果を表示できますが、Google 独自のスクリプト検出方法により、これらのページのデータ マイニングを防ぐことができますか?

$_SERVER['HTTP_USER_AGENT']それとも、セキュリティ対策を迂回するために人々が Google のように見せかける方法はありますか?

前もって感謝します。

4

2 に答える 2

4

または、$_SERVER['HTTP_USER_AGENT'] を Google のように見せてセキュリティ対策を回避する方法はありますか?

絶対。ユーザーエージェントは笑えるほど簡単に偽造できます。たとえば、Firefox のユーザー エージェント スイッチャーを参照してください。また、スパム ボットがユーザー エージェント ヘッダーを Google ボットに設定することも簡単です。

それでも試してみる価値はあるかもしれません。試してみて、結果がどうなるか見てみましょう。問題が発生した場合は、別の方法を検討する必要があるかもしれません。

Google ボットを認識するもう 1 つの方法は使用する IP 範囲です。ボットが定義済みの IP 範囲を使用しているかどうかはわかりません。そうではない可能性があります。調べる必要があります。

更新: IP を分析することで Google ボットを確認できるようです。Google ウェブマスター セントラルから: Googlebot を確認する方法

DNS を使用してケースバイケースで確認するように Web マスターに指示するのが最善の方法のようです。推奨される手法は、逆引き DNS ルックアップを実行し、名前が googlebot.com ドメインにあることを確認してから、その googlebot.com 名を使用して対応する正引き DNS->IP ルックアップを実行することだと思います。例えば:

ホスト 66.249.66.1 1.66.249.66.in-addr.arpa ドメイン名ポインタ

ホストcrawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.comのアドレスは66.249.66.1です

逆引き DNS ルックアップを実行するだけでは不十分だと思います。スプーファーが逆引き DNS を設定して、crawl-abcd.googlebot.com をポイントする可能性があるからです。

于 2010-04-12T11:14:27.057 に答える
1

$_SERVER['HTTP_USER_AGENT']パラメータは安全ではありません。本当に結果を取得したい場合は、偽造することができます。あなたの決定はビジネス上のものです。基本的に、セキュリティを下げて、人/ボットがサイトをスクレイピングできるようにしたいですか、それとも結果をGoogleから隠したいですか.

于 2010-04-12T11:13:13.563 に答える