リンクを取得しながら 5 ~ 10 のサイトを抽出する小さなクローラーを作成しています。このような URL を取得しています。
../tets/index.html
その場合は/test/index.html
、ベース URL を追加できますhttp://www.example.com/test/index.html
この種の URL に対して何ができますか。
これらの URL は相対 URLです。「..」は「親ディレクトリ」を意味し、「.」は「.」を意味します。bash のように、単に「このディレクトリ」を意味します。たとえば、このページを見ているとします: http://www.someserver/test/foo/bar.htmlで、その中に次のような URL があります: "../baz/foobar.html", それは実際、http://www.someserver/test/baz/foobar.htmlを指していると思います。テストするだけです。
このURL 正規化ウィキペディアのページをご覧ください。