サイトで行われている検索エンジンのクロールを分析する必要があります。これに適したツールはありますか?AWStats と Sawmill を試しました。しかし、どちらもクロールについて非常に限られた洞察しか得られません。一定期間内に特定のクローラーによってクロールされた、サイトのセクション内の固有の Web ページの数などの情報を知る必要があります。
Google アナリティクスは、JavaScript 追跡メカニズムにより、クロールをまったく追跡しません。
サイトで行われている検索エンジンのクロールを分析する必要があります。これに適したツールはありますか?AWStats と Sawmill を試しました。しかし、どちらもクロールについて非常に限られた洞察しか得られません。一定期間内に特定のクローラーによってクロールされた、サイトのセクション内の固有の Web ページの数などの情報を知る必要があります。
Google アナリティクスは、JavaScript 追跡メカニズムにより、クロールをまったく追跡しません。
サイトの最初のページへのリンクをたどると、主要な検索エンジンのクローラーは最初にrobots.txtというファイルを要求します。このファイルはもちろん、検索クローラーに、サイトの所有者がアクセスを許可しているページと、アクセスを許可しているファイルまたはディレクトリを通知します。立ち入り禁止で。
robots.txtがない場合はどうなりますか? ほとんどの場合、クローラーはこれを「解釈」して、立ち入り禁止のページ/ディレクトリがないことを意味し、サイト全体のクロールに進みます。では、クローラーがサイト全体をインデックス化するために、なぜ robots.txt ファイルを含める必要があるのでしょうか。そこにある場合、クローラーはほとんどの場合、それを読み取れるように要求します。もちろん、この要求はサーバー アクセス ログ ファイルの行として表示されます。これは、クローラーのかなり強力な署名です。
2 つ目は、 WebalyzerやAwstatsなどの優れたサーバー アクセス ログ パーサーです。 ユーザー エージェントと IP アドレスを、公開された信頼できるリストと比較します。この目的のために使用されます。前者は年間数千ドル以上です。後者は無料です。
Webalyzer と AWStats はどちらもやりたいことを実行できますが、次の理由で AWStats をお勧めします: かなり最近 (約 1 年前) に更新されましたが、Webalyzer が最後に更新されたのは 8 年以上前です。さらに、AWStats にはより優れたレポート テンプレートがあります。Webalyzer の利点は、はるかに高速であることです。
これは、おそらくあなたが探しているものである (すぐに使える構成に基づく) AWStats からの出力例です。