以前の質問に困惑した後:SO google-analytics-domain-data-without-filtering
私は自分自身の非常に基本的な分析システムを試してきました。
MySQLテーブル:
hit_id, subsite_id, timestamp, ip, url
subsite_idを使用して、フォルダーにドリルダウンします(前の質問で説明したように)。
これで、次のメトリックを取得できます。
- ページビュー-subsite_idとdateでグループ化
- ユニークなページビュー-subsite_id、date、url、IPでグループ化されています(必ずしもGoogleのやり方ではありません!)
- 通常の「最も訪問されたページ」、「訪問する可能性が高い時間」など。
私のデータをGoogleAnalyticsのデータと比較したところ、Googleの値は各メトリックで低いことがわかりました。つまり、私自身の設定では、Googleよりも多くのヒットをカウントしています。
そこで、これまでさまざまなWebクローラー、Google、Yahoo、DotbotからのIPの割引を開始しました。
短い質問:
- すべての主要なクローラーのリストを割引にまとめる価値はありますか?定期的に変更される可能性のあるリストはありますか?
- GoogleがGAデータに適用する他の明らかなフィルターはありますか?
- 今後、さらに役立つ可能性のある他のデータを収集しますか?
- Googleは、サイトへの入り口検索キーワードを計算するためにどのような変数を使用しますか?
データは社内で「サブサイトランキングシステム」にのみ使用されますが、参考のために基本的なデータ(ページビュー、最も人気のあるページなど)をユーザーに示したいと思います。