PHP でページを単純にキャッシュする基本的なクローラーを作成しています。
get_file_contents
Webページのコンテンツを取得するために使用し、正規表現を使用してすべてのリンクを取得するだけです<a href="URL">DESCRIPTION</a>
-現時点では次のように返されます:
Array {
[url] => URL
[desc] => DESCRIPTION
}
私が抱えている問題は、ページ リンクがローカルかどうかを判断する背後にあるロジックを理解すること、または完全に異なるローカル ディレクトリにある可能性があるかどうかを判断することです。
組み合わせはいくつでも可能です:href="../folder/folder2/blah/page.html"
またはhref="google.com"
またはhref="page.html"
- 可能性は無限大です。
これにアプローチする正しいアルゴリズムは何でしょうか? 重要なデータを失いたくありません。