python - urllib と BeautifulSoup を使用して Python で Web から情報を取得する

Question

urllib を使用して html ページを取得し、BeautifulSoup を使用して html ページを解析できますが、BeautifulSoup から読み取るファイルを生成する必要があるようです。

import urllib                                       
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()                            
sock.close()                                        
--> write to file

urllib からファイルを生成せずに BeautifulSoup を呼び出す方法はありますか?

score 23 · Accepted Answer

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlSource)

ファイルの書き込みは不要です。HTML 文字列を渡すだけです。から返されたオブジェクトをurlopen直接渡すこともできます。

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)

score 0 · Accepted Answer

URL を開いて html をダウンロードし、gazpachoを使用して 1 回で解析可能にすることができます。

from gazpacho import Soup
soup = Soup.get("https://www.example.com/")

python - urllib と BeautifulSoup を使用して Python で Web から情報を取得する

2 に答える 2

Related

Reference