http://www.gilacountyaz.gov/government/assessor/index.phpのような一部の Web サイトには、絶対パスであるはずの内部リンクがたくさんありますが、先頭のスラッシュはありません。結果でそれらを解析するとurlparse.urljoin
、次のようになります。
>>> import urlparse
>>> a = "http://www.gilacountyaz.gov/government/assessor/index.php"
>>> b = "government/assessor/address_change.php"
>>> urlparse.urljoin(a, b)
'http://www.gilacountyaz.gov/government/assessor/government/assessor/address_change.php'
これにより、Web クローラーは既にページにアクセスしたことを認識できず、無限ループが発生する可能性があります。Firefox と Chrome は、問題を特定して正しく解決することができます。
http://www.gilacountyaz.gov/government/assessor/address_change.php
Pythonで同じことを行う方法はありますか? 真の相対パスを扱っている可能性があるため、常に先頭のスラッシュが機能しないと仮定することに注意してください。