1

以前の質問に困惑した後:SO google-analytics-domain-data-without-filtering

私は自分自身の非常に基本的な分析システムを試してきました。

MySQLテーブル:

hit_id, subsite_id, timestamp, ip, url

subsite_idを使用して、フォルダーにドリルダウンします(前の質問で説明したように)。

これで、次のメトリックを取得できます。

  • ページビュー-subsite_idとdateでグループ化
  • ユニークなページビュー-subsite_id、date、url、IPでグループ化されています(必ずしもGoogleのやり方ではありません!)
  • 通常の「最も訪問されたページ」、「訪問する可能性が高い時間」など。

私のデータをGoogleAnalyticsのデータと比較したところ、Googleの値は各メトリックで低いことがわかりました。つまり、私自身の設定では、Googleよりも多くのヒットをカウントしています。

そこで、これまでさまざまなWebクローラー、Google、Yahoo、DotbotからのIPの割引を開始しました。

短い質問:

  1. すべての主要なクローラーのリストを割引にまとめる価値はありますか?定期的に変更される可能性のあるリストはありますか?
  2. GoogleがGAデータに適用する他の明らかなフィルターはありますか?
  3. 今後、さらに役立つ可能性のある他のデータを収集しますか?
  4. Googleは、サイトへの入り口検索キーワードを計算するためにどのような変数を使用しますか?

データは社内で「サブサイトランキングシステム」にのみ使用されますが、参考のために基本的なデータ(ページビュー、最も人気のあるページなど)をユーザーに示したいと思います。

4

3 に答える 3

1

多くの人がプライバシー上の理由でGoogleAnalyticsをブロックしています。

于 2010-03-23T14:03:33.117 に答える
0

クライアント側のリグとサーバー側のeemによる過少報告は、これらの比較の通常の結果です。

これらの研究に出くわしたときに、格差を調整しようとした方法は次のとおりです。

サーバー側のコレクションに記録されているが、クライアント側には記録されていないデータソース:

  • javascriptをサポートしていないモバイルデバイスからのヒット (これはおそらく、2つの収集手法間の大きな違いの原因です。たとえば、2007年1月のcomScoreの調査によると、英国のインターネットユーザーの19%がモバイルデバイスからインターネットにアクセスしています)

  • スパイダー、ボットからのヒット(すでに言及しました)

サーバー側のコレクションがJavaScriptページタグと比較してより忠実に(偽陰性がはるかに少ない)記録する傾向があるデータソース/イベント:

  • ファイアウォール、特に企業のファイアウォールの背後にいるユーザーからのヒット-ファイアウォールはページタグをブロックし、さらに一部はCookieを拒否/削除するように構成されています。

  • W3Cデータによると、ブラウザでJavaScriptを無効にしたユーザーからのヒット数は5%です。

  • ページが読み込まれる前にページを終了したユーザーからのヒット。繰り返しますが、これはあなたが思っているよりも大きな格差の原因です。これをサポートするために最も頻繁に引用された調査は、Stone Temple Consultingによって実施されました。これは、同じWeb分析システムで構成された2つの同一サイト間の一意の訪問者トラフィックの違いを示しましたが、js追跡コードが一方のサイトのページの下部、およびもう一方のページの上部では、 4.3%でした


FWIW、スパイダーやボットなどを削除/識別するために使用するスキームは次のとおりです。

  1. robots.txtファイルのリクエストを監視し ます。もちろん、同じIPアドレス+ユーザーエージェントからの他のすべてのリクエストをフィルタリングします(もちろん、すべてのスパイダーがrobots.txtをリクエストするわけではありませんが、ごくわずかなエラーで、このリソースのリクエストはおそらくボットです。

  2. ユーザーエージェントとIPアドレスを公開されたリストと比較します。iab.netuser-agents.orgは、この目的で最も広く使用されていると思われる2つのリストを公開します。

  3. パターン分析:ここでは洗練されたものはありません。(i)時間の関数としてのページビューを確認します(つまり、各ページで200ミリ秒のリンクを多数クリックするのは確率的です)。(ii)「ユーザー」がサイトをトラバースするパス。体系的で完全であるか、ほぼ完全であるか(バックトラッキングアルゴリズムに従うなど)。(iii)正確なタイミングでの訪問(たとえば、毎日午前3時)。

于 2010-03-24T02:51:16.437 に答える
0

最大の理由は、コードがフッターに含まれていることが多いため、ユーザーはJavaScriptを有効にして、ページ全体を読み込む必要があることです。Awstars、あなたのような他のサーバーサイドソリューションはすべてを手に入れます。さらに、分析はボットとスクレーパーを特定するのに非常に役立ちます。

于 2010-03-24T03:29:15.987 に答える