0

利用可能なすべてのページを自動的にスキャンするにはどうすればよいですか?

私が考えることができる 1 つの方法は、ホームページから再帰的にスキャンすることです。

ただし、バックエンド CMS をスキャンすることはできません。

では、これらのスキャン ツールはどのように機能するのでしょうか。

4

1 に答える 1

1

愚かな Web クローラー:

まず、リンクを格納するための配列を作成し、そこに 1 つの URL を自分で配置します。アクセスした URL を格納するための 2 つ目の空の配列を作成します。次に、次のことを行うプログラムを開始します。

  1. リンク配列の最初の項目を読み取って削除する
  2. その URL で Web ページをダウンロードする
  3. リンク タグの HTML を解析し、見つかったすべてのリンクをリンク配列に追加します
  4. 訪問した URL 配列に Web ページの URL を追加します
  5. 五島一

Web 上のすべてのページがランダムなリンク (おそらく数十億) をたどることによって到達可能であると仮定すると、単純にステップ 1 から 4 を繰り返すだけで、最終的に Web 全体をダウンロードすることになります。Web は実際には完全に接続されたグラフではないため、最終的にすべてのページに到達するには、さまざまなポイントからプロセスを開始する必要があります。

于 2011-02-08T06:58:17.957 に答える