この質問は非常に興味深いと思いました: Programmatic Bot Detection 非常によく似た質問がありますが、「行儀の悪いボット」については気にしません。
私は (Google アナリティクスに加えて) 訪問ごとに以下を追跡しています:
- エントリーURL
- リファラー
- ユーザーエージェント
- Adwords (クエリ文字列による)
- ユーザーが購入したかどうか
- 等
問題は、あらゆる種類のコンバージョン率を計算すると、多くの「ボット」訪問が発生し、結果が大きく歪められることです。
できるだけ多くのボットの訪問を無視したいのですが、あまり綿密に監視する必要がなく、それ自体がパフォーマンスを浪費せず、できれば誰かが JavaScript を無効にしている場合でも機能するソリューションが必要です。
トップ 100 程度のボットの公開リストはありますか? http://www.user-agents.org/でリストを見つけましたが、数千とは言わないまでも数百のボットが含まれているようです。何千ものリンクに対してすべてのリファラーをチェックしたくありません。
これが現在の googlebot UserAgent です。どのくらいの頻度で変更されますか?
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)