私は、BeautifulSoup、ScrapyなどについてWebスクレイピングを実行するためのWebスクレイピングに関する多くの回答を読みました。
Webブラウザからページのソースを保存するのと同等の方法はありますか?
つまり、PythonでそれをWebサイトにポイントし、ページのソースを標準のPythonモジュールのみを含むテキストファイルに保存する方法はありますか?
これが私が到達した場所です:
import urllib
f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")
#somehow save the web page source
f.close()
私はあまり知りませんが、実際にページのソースをプルして記述できるようにするコードを探しています。urlopenが接続を確立するだけだということを私は収集します。
おそらく、Webページの行を読み取るのに相当するreadlines()がありますか?