17

Web サーバー上のいくつかのファイルの正確なダウンロード数を取得しようとしています。ユーザー エージェントを調べたところ、ボットまたは Web クローラーであることが明らかなものもありましたが、多くの場合、Web クローラーである場合とそうでない場合があり、多くのダウンロードを引き起こしていることがわかりません。

ユーザー エージェント、IP、動作などのドキュメントを含む既知の Web クローラーのリストはありますか?

私は、Google、Yahoo、または Microsoft のような公式のものには興味がありません。それらは一般的に行儀が良く、自己識別力があります。

4

4 に答える 4

12

私は通常http://www.user-agents.org/を参照として使用しています。これがお役に立てば幸いです。

http://www.robotstxt.org/db.htmlまたはhttp://www.botsvsbrowsers.comを試すこともできます。

于 2009-11-14T07:37:38.047 に答える
4

http://www.robotstxt.org/db.htmlは、開始するのに適した場所です。必要に応じて、自動化可能な生のフィードもあります。 http://www.botsvsbrowsers.com/も役に立ちます。

于 2009-11-14T07:36:31.870 に答える
3

残念ながら、ボットの活動が多すぎて多様であるため、正確にフィルター処理できないことがわかりました。正確なダウンロード数が必要な場合は、javascript を要求してダウンロードをトリガーすることをお勧めします。これは基本的に、ボットを確実に除外する唯一の方法です。また、最近のすべてのサイト トラフィック分析エンジンが JavaScript ベースである理由もここにあります。

于 2009-11-14T07:45:04.707 に答える