ソフトウェアの特定の部分で、単純に URL のソース コードを取得したいので、その文字列 (ソース) を解析して何かを実行したいと考えています。問題は、実際にプログラムを実行したときにソースを取得する方法がわからないことです。たとえそれが IDLE で動作していてもです。
import urllib2
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
req = urllib2.Request('http://www.google.com')
response = urllib2.urlopen(req)
page_source = response.read()
page_source
たとえば、「page_source」は何も出力せず、単に黙って実行を終了します。同期していないことが原因だと思いますが、解決方法がわかりません。私も試しました(必死の試みとして):
import urllib2
import time
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
req = urllib2.Request('http://www.google.com')
response = urllib2.urlopen(req)
page_source = response.read()
time.sleep(4)
page_source
これも機能しません。
私はすでにresponse.code
aa while ループを取得して作成することを考えていました。
while (response.code !== 200):
time.sleep(4)
しかし、「response.code」は単に何も返さないため、失敗します。
ユーザーが接続されているなどの問題は、コードの残りの部分で既に処理されているため、心配する必要はありません。実際に必要なのは、ページ ソースを取得して解析する方法を理解することだけです。