サイトでのデータ収集を防止したい (もちろん googlebot を除く)。GB の UserAgent に依存するだけでは不十分だと思います (すべてのボットがそれを偽造できます)。
偽物を避けるために GoogleBot を認証するにはどうすればよいですか。
サイトでのデータ収集を防止したい (もちろん googlebot を除く)。GB の UserAgent に依存するだけでは不十分だと思います (すべてのボットがそれを偽造できます)。
偽物を避けるために GoogleBot を認証するにはどうすればよいですか。
正式な方法は、正引きと逆引きの DNS ルックアップを組み合わせて使用することです。彼らはそれを偽造することはできません!
詳細については、Google のウェブマスター ブログ: How to verify Googlebot を参照してください。
DNS を使用してケースバイケースで検証するようウェブマスターに指示するのが最善の方法のようです。推奨される手法は、逆引き DNS ルックアップを実行し、名前が googlebot.com ドメインにあることを確認してから、その googlebot.com 名を使用して対応する正引き DNS->IP ルックアップを実行することだと思います。例えば:
> host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. > host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1逆引き DNS ルックアップを実行するだけでは十分ではないと思います。スプーファーが逆引き DNS をセットアップして を指すようにする可能性があるから
crawl-a-b-c-d.googlebot.comです。
ただし、この IP ごとのルックアップの結果をキャッシュし、定期的にのみ実行して、検証プロセスで過度のオーバーヘッドが発生しないようにすることをお勧めします。
公式の Google ウェブマスター ブログに、「Googlebot を認証する公式の方法」を説明する投稿があります。
DNS を使用してケースバイケースで検証するようウェブマスターに指示するのが最善の方法のようです。推奨される手法は、逆引き DNS ルックアップを実行し、名前が googlebot.com ドメインにあることを確認してから、その googlebot.com 名を使用して対応する正引き DNS->IP ルックアップを実行することだと思います。例えば:
>
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.>
host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1逆引き DNS ルックアップを実行するだけでは十分ではないと思います。スプーファーが逆引き DNS をセットアップして を指すようにする可能性があるから
crawl-a-b-c-d.googlebot.comです。
Google ボットは次の範囲を使用します -
203.208.60.0/24、66.249.64.0/20、2001:4860:4801:2:6b00:6006:1300:b075、2001:4860:4801:5:1000:6006:1300:b075、2001:4860:4801: 6:e300:6006:1300:b075、2001:4860:4801:2001::6006:1300:b075、2001:4860:4801:2002::6006:1300:b075
Bing ボットの IP 範囲 -
65.52.104.0/24、65.52.108.0/22、65.55.24.0/24、65.55.52.0/24、65.55.55.0/24、65.55.213.0/24、131.253.24.0/22、131.253.46.0/23、5.1.5/23 16.0/23、157.55.18.0/24、157.55.32.0/22、157.55.36.0/24、157.55.48.0/24、157.55.109.0/24、157.55.110.40/29、157.55.110.48/706、157.55.110.48/706 24、157.56.93.0/24、157.56.94.0/23、157.56.229.0/24、199.30.16.0/24、207.46.12.0/23、207.46.192.0/24、207.46.195.0/24、24、29.06.1 207.46.204.0/24
詳細については、以下のリンクを使用してください -
http://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html
.
当社 (Incapsula) が最近行った Googlebot の活動の調査では、Googlebot による印象付けの試みの平均 21% が示されました。(これらの 75% は直接有害でした)
http://www.incapsula.com/the-incapsula-blog/item/369-was-that-really-a-google-bot-crawling-my-site
とはいえ、前述の検証方法は 100% 完全に証明されているため、不注意によってのみ脆弱性が存在し続けます。