list - 既知の Web クローラーのリストはありますか?

Question

Web サーバー上のいくつかのファイルの正確なダウンロード数を取得しようとしています。ユーザーエージェントを調べたところ、ボットまたは Web クローラーであることが明らかなものもありましたが、多くの場合、Web クローラーである場合とそうでない場合があり、多くのダウンロードを引き起こしていることがわかりません。

ユーザーエージェント、IP、動作などのドキュメントを含む既知の Web クローラーのリストはありますか?

私は、Google、Yahoo、または Microsoft のような公式のものには興味がありません。それらは一般的に行儀が良く、自己識別力があります。

score 12 · Accepted Answer

私は通常http://www.user-agents.org/を参照として使用しています。これがお役に立てば幸いです。

http://www.robotstxt.org/db.htmlまたはhttp://www.botsvsbrowsers.comを試すこともできます。

score 4 · Accepted Answer

http://www.robotstxt.org/db.htmlは、開始するのに適した場所です。必要に応じて、自動化可能な生のフィードもあります。 http://www.botsvsbrowsers.com/も役に立ちます。

score 3 · Accepted Answer

残念ながら、ボットの活動が多すぎて多様であるため、正確にフィルター処理できないことがわかりました。正確なダウンロード数が必要な場合は、javascript を要求してダウンロードをトリガーすることをお勧めします。これは基本的に、ボットを確実に除外する唯一の方法です。また、最近のすべてのサイトトラフィック分析エンジンが JavaScript ベースである理由もここにあります。

list - 既知の Web クローラーのリストはありますか?

4 に答える 4

Related

Reference