16

私は、BeautifulSoup、ScrapyなどについてWebスクレイピングを実行するためのWebスクレイピングに関する多くの回答を読みました。

Webブラウザからページのソースを保存するのと同等の方法はありますか?

つまり、PythonでそれをWebサイトにポイントし、ページのソースを標準のPythonモジュールのみを含むテキストファイルに保存する方法はありますか?

これが私が到達した場所です:

import urllib

f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")

#somehow save the web page source

f.close()

私はあまり知りませんが、実際にページのソースをプルして記述できるようにするコードを探しています。urlopenが接続を確立するだけだということを私は収集します。

おそらく、Webページの行を読み取るのに相当するreadlines()がありますか?

4

3 に答える 3

31

あなたは試すことができますurllib2

import urllib2

page = urllib2.urlopen('http://stackoverflow.com')

page_content = page.read()

with open('page_content.html', 'w') as fid:
    fid.write(page_content)
于 2012-11-11T14:52:25.883 に答える