2

PhantomJS やAnemoneのような Ruby クローラーを使用して、Google アナリティクスの偽の統計情報を防ぐ方法はありますか?

私たちの監視ツール (両方に基づいています) は、クライアントからサイトをクロールし、特定のドメイン内の各リンクのリンク ステータスを更新します。

巨大なトラフィックをシミュレートする問題。

Cookie やヘッダーなどを使って「私はロボットです。追跡しないでください」などと言う方法はありますか?

( クローラー IP を [フィルターとして] Google アナリティクスに追加することは、最善の解決策ではない可能性があります )

前もって感謝します

4

3 に答える 3

3

ジョー、高度な除外フィルタを設定してみてください-- フィールドブラウザを使用し、[フィルタ パターン] にファントムのユーザー エージェントの名前を入力します(または他のユーザー エージェント --テクノロジ->ブラウザと OSで目的の名前を検索します)レポート)。

ここに画像の説明を入力

于 2013-11-15T21:59:44.583 に答える
1

この特定の問題の簡単な解決策を見つけました。js (phantomjs など) を実行するクローラーをすべての Google アナリティクス統計から除外する最も簡単な方法は、/etc/hostsを使用して Google アナリティクス ドメインをブロックすることです。

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

これは、偽のデータを防止する最も簡単な方法です。このように、すべてのクライアントにフィルターを追加する必要はありません。

(他の回答をありがとう)

于 2013-11-18T14:58:12.500 に答える
0

IP フィルタリングでは不十分かもしれませんが、ユーザー エージェント文字列 (ファントムで任意に設定できます) によるフィルタリングでしょうか? それは、フィルターの「ブラウザー」フィールドになります。

于 2013-11-15T12:24:46.093 に答える