利用可能なすべてのページを自動的にスキャンするにはどうすればよいですか?
私が考えることができる 1 つの方法は、ホームページから再帰的にスキャンすることです。
ただし、バックエンド CMS をスキャンすることはできません。
では、これらのスキャン ツールはどのように機能するのでしょうか。
利用可能なすべてのページを自動的にスキャンするにはどうすればよいですか?
私が考えることができる 1 つの方法は、ホームページから再帰的にスキャンすることです。
ただし、バックエンド CMS をスキャンすることはできません。
では、これらのスキャン ツールはどのように機能するのでしょうか。
愚かな Web クローラー:
まず、リンクを格納するための配列を作成し、そこに 1 つの URL を自分で配置します。アクセスした URL を格納するための 2 つ目の空の配列を作成します。次に、次のことを行うプログラムを開始します。
Web 上のすべてのページがランダムなリンク (おそらく数十億) をたどることによって到達可能であると仮定すると、単純にステップ 1 から 4 を繰り返すだけで、最終的に Web 全体をダウンロードすることになります。Web は実際には完全に接続されたグラフではないため、最終的にすべてのページに到達するには、さまざまなポイントからプロセスを開始する必要があります。