python - Beautiful Soup を使用してソースコード内の完全な URL を取得する

Question

だから私はいくつかのソースコードを見ていました、そして私はこのコードのビットに出くわしました

<img src="/gallery/2012-winners-finalists/HM_Watching%20birds2_Shane%20Conklin_MA_2012.jpg"

現在、ソースコードではリンクが青色になっており、クリックすると、その写真が配置されている完全な URL に移動します。Python で Beautiful Soup を使用してソースコードに表示されているものを取得する方法を知っています。ソースコードのリンクをクリックすると取得できる完全な URL を取得するには?

編集:私が与えられた場合<a href = "/folder/big/a.jpg"、Pythonまたは美しいスープを介してそのURLの開始部分をどのように把握しますか?

score 0 · Accepted Answer

from bs4 import BeautifulSoup
import requests
import lxml

r = requests.get("http://example.com")

url = r.url  # this is base url
data = r.content  # this is content of page
soup = BeautifulSoup(data, 'lxml')
temp_url = soup.find('a')['href']  # you need to modify this selector

if temp_url[0:7] == "http://" or temp_url[0:8] == "https://" :  # if url have http://
        url = temp_url
else:
        url = url + temp_url


print url  # this is your full url

python - Beautiful Soup を使用してソース コード内の完全な URL を取得する

2 に答える 2

Related

Reference

python - Beautiful Soup を使用してソースコード内の完全な URL を取得する