*編集: 回答を投稿できなかったため、この質問の解決策はこの質問の下にあります。人々は質問を閉じることにしました。*
最近、Google プロキシのいくつかの亜種が私のサイトにアクセスしていることを発見しました。これらのクローラーは (ホスト名が示すように) 常にプロキシの背後にあるとは限らず、ブラウザーとして識別されるため、これらが合法的な Google クローラーであるとは思えません。ホスト名は、Google ボットと同様の形式ですが、文字列「proxy」が追加されています。
私の PHP ブロッキング クラスはこれらのクローラーをブロックしますが、これらのクローラーをブロックすることは正しいですか? それらは何ですか、これらはGoogleからのものですか、それとも偽物ですか?
これらのクローラーの 1 つに関する情報を次に示します。
BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked
Ticket ID : {EVNT_136877_2013040520130402_33147_10348}
Event type : Access blocked
Event date : 04/05/2013 - 19:17:47 (server date-time)
Event counter : First occurring
Processed url : http://streambutler.net/
From url : http://www.google.com/search
Domain : streambutler.net
Domain IP : 95.170.70.213
Visitor IP : 66.249.81.131
Proxy IP : 66.249.81.131
Critical : Yes
Action required : No
Additional information
Problem : Bad Proxy - via 66.249.81.131
Hostname : google-proxy-66-249-81-131.google.com
Block : Yes
Refferer : http://www.google.com/search
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G...
Browser : Chrome 22.0.1229
Platform : Linux
Robot : No
Mobile : No
Tablet : No
Console : No
Crawler : No
Agent_type : browser
Agent_name : chrome
Agent_version : 22.0.1229
Os_type : linux
Os_name : linux
Agent_languagetag : en
Status : ok
Request : 66.249.81.131
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.406
Longitude : -122.079
Timezone : -07:00
Available from : \'http
Areacode : 0
Dmacode : 0
Continentcode : na
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
Organization : NULL
他の亜種が見つかりました
- google-proxy-66-249-81-131.google.com (自分自身を Firefox 6.0 と認識します???)
- google-proxy-66-249-81-148.google.com (javascript ファイルへのアクセスを試みます)
- google-proxy-66-249-81-131.google.com
- google-proxy-66-249-81-111.google.com (javascript ファイルへのアクセスを試みます)
- google-proxy-66-249-81-164.google.com
編集: 次のものは奇妙なものです。Windows 7 上の Firefox 6.0 と上記の例と同じ IP ですが、次のログではプロキシではありませんか? モバイルプロキシの場合、これは非常に奇妙ですか?
Ticket ID : {EVNT_164838_2013040520130402_33147_10348}
Event type : Access blocked
Event date : 04/05/2013 - 19:19:07 (server date-time)
Event counter : First occurring
Processed url : http://streambutler.net/
From url : Unknown or direct link
Domain : streambutler.net
Domain IP : 95.170.70.213
Visitor IP : 66.249.81.131
Proxy IP : (not present)
Critical : Yes
Action required : No
Additional information
Problem : Blocked Server IP address (analysis) - 66.249.81.131
Hostname : google-proxy-66-249-81-131.google.com
Block : Yes
Refferer : (direct access)
AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ...
Browser : Firefox 6.0
Platform : Windows 7
Robot : No
Mobile : No
Tablet : No
Console : No
Crawler : No
Agent_type : browser
Agent_name : firefox
Agent_version : 6.0
Os_type : windows
Os_name : windows 7
Agent_languagetag : en
Status : ok
Request : 66.249.81.131
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.406
Longitude : -122.079
Timezone : -07:00
Available from : \'http
Areacode : 0
Dmacode : 0
Continentcode : na
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
Organization : NULL
編集:解決策:
とった!これらの「クローラー」はクローラーではありませんが、Google 検索エンジンで使用されるライブ Web サイト プレビューの一部です。
プレビューで自分の Web サイトの 1 つを表示するためにこれを試してみましたが、ブロックされた IP メッセージを受け取りました。
ユーザーが Web サイトのプレビューを表示できるようにするには、これらの「クローラー」を受け入れる必要があります。
他の人が言ったように:「その URL のルート ドメインは google.com であり、簡単にスプーフィングすることはできません」。
結論:これらのボットまたはクローラーは信頼でき、Google 検索でプレビューを表示するために使用されます。