php - PHP での Web クローラーリンク/ページロジック

Question

PHP でページを単純にキャッシュする基本的なクローラーを作成しています。

get_file_contentsWebページのコンテンツを取得するために使用し、正規表現を使用してすべてのリンクを取得するだけです<a href="URL">DESCRIPTION</a>-現時点では次のように返されます:

Array {
[url] => URL
[desc] => DESCRIPTION
}

私が抱えている問題は、ページリンクがローカルかどうかを判断する背後にあるロジックを理解すること、または完全に異なるローカルディレクトリにある可能性があるかどうかを判断することです。

組み合わせはいくつでも可能です:href="../folder/folder2/blah/page.html"またはhref="google.com"またはhref="page.html"- 可能性は無限大です。

これにアプローチする正しいアルゴリズムは何でしょうか? 重要なデータを失いたくありません。

score 3 · Accepted Answer

まず、正規表現と HTML は混在しません。使用する：

foreach(DOMDocument::loadHTML($source)->getElementsByTagName('a') as $a)
{
  $a->getAttribute('href');
}

//あなたのサイトの外に出る可能性のあるリンクは、protocol またはで始まります。

http://example.com
//example.com/

href="google.com"ローカルファイルへのリンクです。

しかし、サイトの静的コピーを作成したい場合は、なぜ使用しないのwgetでしょうか?

score 1 · Accepted Answer

まず、ローカルリンクのプロパティについて考えてみましょう。

これらは次のいずれかになります。

リンクがローカルであるかどうかを識別するために必要なロジックはこれだけです。

parse_url関数を使用して、URLのさまざまなコンポーネントを分離し、スキームとホストを識別します。

score 0 · Accepted Answer

href で http:// を探す必要があります。それ以外の場合は、./ または "./" の任意の組み合わせで始まるかどうかを判断できます。「/」が見つからない場合は、ファイルであると想定する必要があります。このためのスクリプトをご希望ですか？

php - PHP での Web クローラー リンク/ページ ロジック