python - python-mechanizeを介して完全にロードされたhtmlを取得するにはどうすればよいですか?

Question

こんにちは、python mechanize を使用して Web ページからデータを取得しています。検索結果の画像をダウンロードするために、Google画像検索Webページからimgurlを取得しようとしています。

これが私のコードです。検索フォームに「犬」と入力して送信します。(「犬」で検索)

import mechanize
import cookielib
import urllib2
import urllib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time = 1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (x11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1'), ('Accept', '*/*') ,('Accept-Language', 'ko-KR')]

br.open('http://www.google.com/imghp?hl=en')
br.select_form(nr=0)
br.form['q'] = 'dog'
a = br.submit()
searched_url = br.geturl()

file0 = open("1.html", "wb")
file0.write(a.read())
file0.close()

Chrome ブラウザからページソースを見ると、ページソースに「imgurl」があります。しかし、python mechanize からデータを読み取ると、そのようなことはありません。また、1.html（私がpythonで書いたもの）のサイズは、chromeからダウンロードしたhtmlファイルよりもはるかに小さいです。Pythonを使用してWebブラウザとまったく同じhtmlデータを取得するにはどうすればよいですか?

Web ブラウザーと同じように要求ヘッダーを設定する必要がありますか? ありがとう

python - python-mechanizeを介して完全にロードされたhtmlを取得するにはどうすればよいですか?

0 に答える 0

Related

Reference