2

たとえば smashingmagzine.com のように、サイトに公開ページがいくつあるか知りたいです。ページ数を数える方法はありますか?

4

3 に答える 3

3

site演算子を使用して Google のインデックスをクエリできます。例えば:

site:domain-to-query.com

これにより、Google によって現在インデックスされているサイトのページのリストが返されます。他の検索エンジンも同様の機能を提供していますが、私はその構文をすぐには知りません。

もちろん、すべてのページが索引付けされるわけではなく、索引には存在しないページが含まれる場合があります。

于 2011-02-09T14:16:17.483 に答える
2

基本的にサイトをクロールする必要があります。プロセスは次のようになります。

  • ルートドメイン/ホームページから開始
  • 同じドメイン内を指すすべてのリンクを探します
  • これらのリンクごとに、手順を繰り返します

同じドメインを指しているクロールへのリンクがなくなると、ループは終了します。サイトにとどまることを忘れないでください。そうしないと、外部サイトのクロールが開始されます。

サイトマップが提供されている場合は、それを解析することもできます。

Javaを使用する場合に役立つ可能性のあるツールの1つは、PHPのJSpiderまたはSphiderです。

于 2011-02-09T14:13:27.587 に答える
0

トップレベルのページから始めて、他のページへのあらゆる種類のリンクを探し、それらを再帰的にクロールして、各ページのマークアップを再帰的にスキャンする必要があります。また、無限のループに巻き込まれないように、スキャンされたものを追跡する必要があります。

于 2011-02-09T14:14:59.813 に答える