filehandle = urllib.urlopen(myurl)
後書きが必要なためregex
、filehandle
ファイルハンドルをオブジェクトから文字列に変換する必要があります。Webページコードを文字列に保存するにはどうすればよいですか?
とても簡単です。
page = filehandle.read()
次のように、それを繰り返すこともできます。
lines = []
for line in filehandle:
lines.append(line)
データを抽出するには、BeautifulSoupまたはlxmlを使用します。
urllib.urlopen
オブジェクトのようなファイルを返すため、それを呼び出すか.read()
、直接反復することができます。
詳細については、ドキュメントを参照してください
編集:
何を説明してもいい
直接繰り返します
意味。
import urllib
request = urllib.urlopen("http://www.python.org")
for source_line in request:
print source_line