0

これについていくつかの考えがありますが、両方に問題があります。100% 正確なデータは必要ありません。ユーザーをルーティングしている最も人気のあるドメインについて一般化できる 80% のソリューションで問題ありません。

オプション 1 - PHP を使用します。track.phpクリックを追跡する前に、参照ページが自分のドメインからのものであることを確認するファイルを介してリンクをルーティングします。このページは、ユーザーを最終的な意図した URL にルーティングします。明らかに、ボットはこれを偽装できます。たくさんしますか?ユーザーエージェントも確認できました。繰り返しますが、多くのボットがこれを偽装していることを知っています。

オプション 2 - JavaScript を使用します。クリックをデータベースに書き込み、ユーザーを最終的な URL に誘導するクリック関数で JavaScript を実行します。

これらの方法はどちらも、私の発信リンクをたどるクローラーに問題を引き起こす可能性があるように感じます。これらの送信クリックを追跡する最も効果的な方法は何ですか?

4

2 に答える 2

1

発信リンクを追跡する最も効果的な方法 (Facebook、Twitter、およびほぼすべての検索エンジンで使用されています) は、" track.php" タイプのファイルです。

ボットの検出は別の問題と考えることができ、その方法は次の質問によってかなりよくカバーされています: http://duckduckgo.com/?q=how+to+detect+http+bots+site%3Astackoverflow.com User-Agent で "bot" を文字列検索すると、おそらく 80%* 近くになります (対象/robots.txtのボットの種類にもよりますが、ヒットを監視すると 95%* になります)。

*: 具体的なデータがないことに基づく、ある程度の知識に基づく推測

于 2012-03-25T06:38:01.313 に答える
1

さて、Google アナリティクスと Piwik はそのために Javascript を使用します。

ボットは JS を使用できないため、人間しか存在しません。逆に、人間が JS を無効にすることもできます (ただし、これはめったにありません)。

Facebook、Deviantart、WLM などは、サーバー側のスクリプトを使用して追跡します。彼らがボットをどのようにフィルタリングするのかはわかりませんが、1つまたは2つのフィルターを備えた素敵なrobots.txtで、80%を取得するには十分であると思います.

于 2012-03-25T08:48:35.963 に答える