-1

検索エンジンが Web ページにアクセスすると、何がget_browser()機能して$_SERVER['HTTP_USER_AGENT'] 返されるのでしょうか?

また、検索エンジンが Web ページをクロールするときに、PHP が提供する可能性のある他の証拠は何ですか?

4

2 に答える 2

1

get_browser()&$_SERVER['HTTP_USER_AGENT']は を返します。次のUseragentsようになります。

グーグル :

  • Mozilla/5.0 (互換; Googlebot/2.​​1; +http://www.google.com/bot.html)
  • Mozilla/5.0 (iPhone; U; Mac OS X のような CPU iPhone OS 4_1; en-us) AppleWebKit/532.9 (Gecko のような KHTML) バージョン/4.0.5 Mobile/8B117 Safari/6531.22.7 (互換性; Googlebot-Mobile/ 2.1; +http://www.google.com/bot.html)
  • Googlebot-Image/1.0

ビング:

  • Mozilla/5.0 (互換; bingbot/2.​​0; +http://www.bing.com/bingbot.htm)
  • Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML、Gecko など) BingPreview/1.0b
  • msnbot/2.​​0b (+http://search.msn.com/msnbot.htm)
  • msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)

ヤフー:

-> クロールを完全に制御 (および制限) するには、robots.txtを使用せず、 .htaccessまたはhttp.confルールを使用します。(良いクローラーは、robots.txt の半分の時間で、許可しないルールについて af*** を提供しません)

于 2012-06-04T13:11:31.847 に答える
1
  • get_browser ()関数は、ブラウザーの機能を (配列で)判別しようとしnon standard user-agentsますが、 ;のためにあまりカウントしません。本格的なアプリの場合は、独自のアプリを作成してください。

  • これ$_SERVER["HTTP_USER_AGENT"]は、ユーザーのブラウザーを「説明する」長い文字列で、上記の関数の最初のパラメーターとして使用できます (オプション)。ヒント: get_browser() 自体ではなく、これを使用してユーザーのブラウザーを明らかにします。また、ユーザー エージェントの欠落にも備えてください。この文字列の例は次のとおりです:
    Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/418 (Gecko のような KHTML) Safari/417.9.3

  • ルールに従う検索エンジン、ロボット、スパイダー、またはクローラーは、サイトのルートに存在する必要があるrobots.txtに保存されている情報に従ってページにアクセスします。robots.txt がなくても、スパイダーはページ内のリンクを見つける限り、サイト全体をクロールできます。このファイルがあれば、スパイダーにを検索するかを伝えるようにプログラムできます。注:このルールは「良い」スパイダーにのみ適用され、悪いスパイダーには適用されません。

于 2012-06-01T16:45:32.777 に答える