3

だから私はWebスクレイピングにかなり慣れていません。このサイトにはテーブルがあり、テーブルの値はJavascriptによって制御されています。値は、ブラウザが Javascript から要求するように指示される将来の値のアドレスを決定します。これらの新しいページには、スクリプトがブラウザーでテーブルを更新する JSON 応答があります。

だから私は、URLを取り込んでボディレスポンスを吐き出す機械化メソッドを持つクラスを構築したいと思っていました。最初はHTMLで、その後、ボディレスポンスは残りの反復でJSONになります。

機能するものがありますが、それが正しいかどうか、またはより良い方法があるかどうかを知りたいです。

class urlMaintain2:    
    def __init__(self):

        self.first_append = 0
        self.response = ''

    def pageResponse(self,url):
        import mechanize
        import cookielib        

        br = mechanize.Browser()

        #Cookie Jar
        cj = cookielib.LWPCookieJar()
        br.set_cookiejar(cj)

        #Browser options
        br.set_handle_equiv(True)
        br.set_handle_gzip(False)
        br.set_handle_redirect(True)
        br.set_handle_referer(True)
        br.set_handle_robots(False)

        br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

        br.addheaders = [('User-agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.16) Gecko/20110319 Firefox/3.6.16'),
                              ('Accept-Encoding','gzip')]
        if self.first_append == 1:
            br.addheaders.append(['Accept', ' application/json, text/javascript, */*'])
            br.addheaders.append(['Content-Type', 'application/x-www-form-urlencoded; charset=UTF-8'])
            br.addheaders.append(['X-Requested-With', 'XMLHttpRequest'])
            br.addheaders.append(['User-agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.16) Gecko/20110319 Firefox/3.6.16'])
            br.addheaders.append(['If-Modified-Since', 'Thu, 1 Jan 1970 00:00:00 GMT'])
            cj.add_cookie_header(br)   

        response = br.open(url)
        headers = response.info()

        if headers['Content-Encoding']=='gzip':
            import gzip
            gz = gzip.GzipFile(fileobj=response, mode='rb')
            html = gz.read()
            gz.close()
            headers["Content-type"] = "text/html; charset=utf-8"
            response.set_data(html)
        br.close()
        return response

データがメイン ページの html から抽出された後、self.first_append は正になります。そのため、本文の応答に JSON がないため、br.addheaders.append は最初は実行されませんが、他のすべての本文の応答は JSON です。 . これはこれを行う正しい方法ですか?より効率的な方法はありますか?

データがメイン ページの html から抽出された後、self.first_append は正になります。そのため、本文の応答に JSON がないため、br.addheaders.append は最初は実行されませんが、他のすべての本文の応答は JSON です。 . これはこれを行う正しい方法ですか?より効率的な方法はありますか?これをより適切に行う他の言語/ライブラリはありますか?

長時間実行した後、次のエラー メッセージが表示されます。

File "C:\Users\Donkey\My Documents\Aptana Studio Workspace\UrlMaintain2\src\UrlMaintain2.py", line 55, in pageResponse response = br.open(url) 
File "C:\Python27\lib\mechanize_mechanize.py", line 203, in open return self._mech_open(url, data, timeout=timeout) 
File "C:\Python27\lib\mechanize_mechanize.py", line 230, in _mech_open response = UserAgentBase.open(self, request, data) 
File "C:\Python27\lib\mechanize_opener.py", line 193, in open response = urlopen(self, req, data) 
File "C:\Python27\lib\mechanize_urllib2_fork.py", line 344, in _open '_open', req) File "C:\Python27\lib\mechanize_urllib2_fork.py", line 332, in _call_chain result = func(*args) 
File "C:\Python27\lib\mechanize_urllib2_fork.py", line 1142, in http_open return self.do_open(httplib.HTTPConnection, req) 
File "C:\Python27\lib\mechanize_urllib2_fork.py", line 1118, in do_open raise URLError(err) urllib2.URLError: 

なぜそれが生成されているのかわかりませんが、それを見る前に何度も繰り返す必要があります。

4

1 に答える 1

7

mechanizeのよくある質問「mechanize は JavaScript のサポートを提供していません」から、オプションについて詳しく説明します (選択肢はあまり良くありません)。

何かが機能している場合は素晴らしいですが、selenium webdriverを使用することは、機械化するよりも ajax サイトをスクレイピングするためのはるかに優れたソリューションです。

于 2011-06-21T05:24:38.237 に答える