ページの絶対 URL とそのページ内にある相対リンクが与えられた場合、 a )決定的に再構築するか、b)相対リンクの絶対 URL を最善の努力で再構築する方法はありますか?
私の場合、美しいスープを使用して特定の URL から html ファイルを読み取り、すべての img タグ ソースを取り除き、ページ画像への絶対 URL のリストを作成しようとしています。
これまでの私の Python 関数は次のようになります。
function get_image_url(page_url,image_src):
from urlparse import urlparse
# parsed = urlparse('http://user:pass@NetLoc:80/path;parameters?query=argument#fragment')
parsed = urlparse(page_url)
url_base = parsed.netloc
url_path = parsed.path
if src.find('http') == 0:
# It's an absolute URL, do nothing.
pass
elif src.find('/') == 0:
# If it's a root URL, append it to the base URL:
src = 'http://' + url_base + src
else:
# If it's a relative URL, ?
注: Python の回答は必要ありません。必要なのはロジックだけです。