HTMLを解析してそこから画像を取得するアプリを作成しています。Beautiful Soupとhtmlのダウンロードを使用すると解析が簡単で、画像はurllib2でも機能します。
相対パスから絶対パスを作成するためのurlparseに問題があります。問題は例で最もよく説明されます:
>>> import urlparse
>>> urlparse.urljoin("http://www.example.com/", "../test.png")
'http://www.example.com/../test.png'
ご覧のとおり、urlparseは../を削除しません。これにより、画像をダウンロードしようとすると問題が発生します。
HTTPError: HTTP Error 400: Bad Request
urllibでこの問題を修正する方法はありますか?