php - PHP を使用したクロール (検索エンジンの訪問) の検出

Question

検索エンジンが Web ページにアクセスすると、何がget_browser()機能して$_SERVER['HTTP_USER_AGENT'] 返されるのでしょうか?

また、検索エンジンが Web ページをクロールするときに、PHP が提供する可能性のある他の証拠は何ですか?

score 1 · Accepted Answer

get_browser()&$_SERVER['HTTP_USER_AGENT']はを返します。次のUseragentsようになります。

グーグル：

Mozilla/5.0 (互換; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (iPhone; U; Mac OS X のような CPU iPhone OS 4_1; en-us) AppleWebKit/532.9 (Gecko のような KHTML) バージョン/4.0.5 Mobile/8B117 Safari/6531.22.7 (互換性; Googlebot-Mobile/ 2.1; +http://www.google.com/bot.html)
Googlebot-Image/1.0

ビング：

Mozilla/5.0 (互換; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML、Gecko など) BingPreview/1.0b
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)

ヤフー：

-> クロールを完全に制御 (および制限) するには、robots.txtを使用せず、 .htaccessまたはhttp.confルールを使用します。(良いクローラーは、robots.txt の半分の時間で、許可しないルールについて af*** を提供しません)

score 1 · Accepted Answer

get_browser ()関数は、ブラウザーの機能を (配列で)判別しようとしnon standard user-agentsますが、 ;のためにあまりカウントしません。本格的なアプリの場合は、独自のアプリを作成してください。
これ$_SERVER["HTTP_USER_AGENT"]は、ユーザーのブラウザーを「説明する」長い文字列で、上記の関数の最初のパラメーターとして使用できます (オプション)。ヒント: get_browser() 自体ではなく、これを使用してユーザーのブラウザーを明らかにします。また、ユーザーエージェントの欠落にも備えてください。この文字列の例は次のとおりです:
Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/418 (Gecko のような KHTML) Safari/417.9.3
ルールに従う検索エンジン、ロボット、スパイダー、またはクローラーは、サイトのルートに存在する必要があるrobots.txtに保存されている情報に従ってページにアクセスします。robots.txt がなくても、スパイダーはページ内のリンクを見つける限り、サイト全体をクロールできます。このファイルがあれば、スパイダーに何を検索するかを伝えるようにプログラムできます。注:このルールは「良い」スパイダーにのみ適用され、悪いスパイダーには適用されません。

2 に答える 2