network-scan - Web スキャンソフトウェアの原理は何ですか?

Question

利用可能なすべてのページを自動的にスキャンするにはどうすればよいですか?

私が考えることができる 1 つの方法は、ホームページから再帰的にスキャンすることです。

ただし、バックエンド CMS をスキャンすることはできません。

では、これらのスキャンツールはどのように機能するのでしょうか。

score 1 · Accepted Answer

愚かな Web クローラー:

まず、リンクを格納するための配列を作成し、そこに 1 つの URL を自分で配置します。アクセスした URL を格納するための 2 つ目の空の配列を作成します。次に、次のことを行うプログラムを開始します。

リンク配列の最初の項目を読み取って削除する
その URL で Web ページをダウンロードする
リンクタグの HTML を解析し、見つかったすべてのリンクをリンク配列に追加します
訪問した URL 配列に Web ページの URL を追加します
五島一

Web 上のすべてのページがランダムなリンク (おそらく数十億) をたどることによって到達可能であると仮定すると、単純にステップ 1 から 4 を繰り返すだけで、最終的に Web 全体をダウンロードすることになります。Web は実際には完全に接続されたグラフではないため、最終的にすべてのページに到達するには、さまざまなポイントからプロセスを開始する必要があります。

network-scan - Web スキャン ソフトウェアの原理は何ですか?

1 に答える 1

Related

Reference

network-scan - Web スキャンソフトウェアの原理は何ですか?