インターネットからダウンロードした Web ページを処理する HTMLParser 実装を Python で作成しています。
これが私のコードです:
class Parser(HTMLParser.HTMLParser):
...
parser=Parser()
httpRequest = urllib2.Request("http://www......")
pageContent = urllib2.urlopen(httpRequest)
while (True):
htmlTextPortion = pageContent.read()
parser.feed(htmlTextPortion)
私の質問は、HTML ページ全体がダウンロードされるまで「読み取り」呼び出しがブロックされるのか、それとも、これまでに読み込まれたページのチャンクが毎回返されるのかということです。
Web ページの処理をできるだけ早く開始し、処理が完了するまで待たないようにする必要があるため、これは私にとって重要です。
pycurlライブラリにはストリーミングのオプションがあると聞きましたが、確かに pycurl に切り替える必要がありますか、それとも urllib2で同じ機能に到達できますか?
どうもありがとう...