python - Webページのソースを保存する固有の方法

Question

私は、BeautifulSoup、ScrapyなどについてWebスクレイピングを実行するためのWebスクレイピングに関する多くの回答を読みました。

Webブラウザからページのソースを保存するのと同等の方法はありますか？

つまり、PythonでそれをWebサイトにポイントし、ページのソースを標準のPythonモジュールのみを含むテキストファイルに保存する方法はありますか？

これが私が到達した場所です：

import urllib

f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")

#somehow save the web page source

f.close()

私はあまり知りませんが、実際にページのソースをプルして記述できるようにするコードを探しています。urlopenが接続を確立するだけだということを私は収集します。

おそらく、Webページの行を読み取るのに相当するreadlines（）がありますか？

score 31 · Accepted Answer

あなたは試すことができますurllib2：

import urllib2

page = urllib2.urlopen('http://stackoverflow.com')

page_content = page.read()

with open('page_content.html', 'w') as fid:
    fid.write(page_content)

python - Webページのソースを保存する固有の方法

3 に答える 3

Related

Reference