これは、Web アプリの作成に関する一般的な質問です。
記事のページ ビューをカウントするアプリケーションと、私のクライアント用にインストールした URL 短縮スクリプトがあります。問題は、ボットがサイトにアクセスするたびに、ページ ビューを膨らませる傾向があることです。
これらのアプリケーションのビュー カウントからボット ビューを削除する方法について、誰かアイデアをお持ちですか?
記事が実際のユーザーによって表示されているか、検索エンジン ボットによって表示されているかを判断するには、いくつかの方法があります。おそらく最善の方法は、ブラウザー (またはボット) によって送信された User-Agent ヘッダーを確認することです。User-Agent ヘッダーは基本的に、リソースへのアクセスに使用されるクライアント アプリケーションを識別するために送信されるフィールドです。たとえば、Internet Explorer は何かを送信する場合がありますMozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)
。Google のボットはGooglebot/2.1 (+http://www.google.com/bot.html)
. 偽の User-Agent ヘッダーを送信することは可能ですが、平均的なサイト ユーザーや Google のような大企業がそうしているようには見えません。空白または商用ボットに関連付けられた一般的なユーザー エージェント文字列である場合は、ボットである可能性が最も高くなります。
その際、robots.txt ファイルが最新であることを確認することをお勧めします。これは単純なテキスト ファイルであり、自動化されたボットがインデックス作成のために取得できないコンテンツに関して尊重する必要があるルールを提供します。
役立つリソースを次に示します。
確認してくださいUser-Agent
。このヘッダー値を使用して、ボットを通常のブラウザー/ユーザーと区別します。
例えば、
Google ボット:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
サファリ:
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; lv-lv) AppleWebKit/531.22.7 (KHTML, like Gecko) Version/4.0.5 Safari/531.22.7