3

私は多くのWebサイトをこすり落とし、Firebugに表示される応答ヘッダーとによって返される応答ヘッダーがurllib.urlopen(url).info()Firebugがより多くのヘッダーを報告するという点でしばしば異なるのはなぜか疑問に思うことがよくあります。

今日は面白いものに出会いました。最終ページにリダイレクトする前に、完全に読み込まれる(200ステータスコードを返す)「検索URL」に従ってWebサイトをスクレイピングしています。スクレイプを実行する最も簡単な方法は、Location応答ヘッダーを返し、別の要求を行うことです。ただし、'urllib.urlopen(url).info()を実行すると、その特定のヘッダーは表示されません。

違いは次のとおりです。

Firebugヘッダー:

Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Connection : keep-alive
Content-Encoding : gzip
Content-Length : 2433
Content-Type : text/html
Date : Fri, 05 Oct 2012 15:59:31 GMT
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Location : /catalog/display/1292/index.html
Pragma : no-cache
Server : Apache/2.0.55
Set-Cookie : PHPSESSID=9b99dd9a4afb0ef0ca267b853265b540; path=/
Vary : Accept-Encoding,User-Agent
X-Powered-By : PHP/4.4.0

私のコードによって返されるヘッダー:

Date: Fri, 05 Oct 2012 17:16:23 GMT
Server: Apache/2.0.55
X-Powered-By: PHP/4.4.0
Set-Cookie: PHPSESSID=39ccc547fc407daab21d3c83451d9a04; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding,User-Agent
Content-Type: text/html
Connection: close

これが私のコードです:

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras
import scrape_tools


tools = scrape_tools.tool_box()
db = tools.db_connect()

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT data FROM table WHERE variable = 'Constant' ORDER BY data")

for row in cursor:
    url = 'http://www.website.com/search/' + row['data']    
    headers = {
            'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding' : 'gzip, deflate',
            'Accept-Language' : 'en-us,en;q=0.5',
            'Connection' : 'keep-alive',
            'Host' : 'www.website.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'
            }
    post_params = {
                'query' : row['data'],
                'searchtype' : 'products'
                }
    post_args = urllib.urlencode(post_params)
    soup = tools.request(url, post_args, headers)

    print tools.get_headers(url, post_args, headers)

注意:scrape_toolsは私が自分で書いたモジュールです。ヘッダーを取得するためのモジュールに含まれるコードは、(基本的に)次のとおりです。

class tool_box:
    def get_headers(self, url, post, headers):
        file_pointer = urllib.urlopen(url, post, headers)
        return file_pointer.info()

不一致の理由はありますか?私は自分のコードでばかげた間違いを犯していますか?不足しているヘッダーデータを取得するにはどうすればよいですか?私はPythonにかなり慣れていないので、ばかげたエラーは許してください。

前もって感謝します。どんなアドバイスも大歓迎です!

また...コードの壁について申し訳ありません=\

4

1 に答える 1

3

2つのリクエストに対して同じ種類の応答が得られません。たとえば、Firefoxリクエストへの応答にはLocation:ヘッダーが含まれているため、おそらくa302 Moved temporarilyまたは301。これらには実際の本文データは含まれていませんが、代わりにFirefoxがLocation:ヘッダーのURLに対して2番目のリクエストを発行します(urllibはそれを行いません)。

Firefoxの応答はConnection : keep-alive、urllibリクエストが。で応答されている間も使用しConnection: closeます。

また、Firefoxの応答はgzipで圧縮されていますが(Content-Encoding : gzip)、urllibの応答は圧縮されていません。これはおそらく、FirefoxAccept-Encoding: gzip, deflateがリクエストとともにヘッダーを送信するためです。

HTTPヘッダーを通知するためにFirebugに依存しないでください(ほとんどの場合、正直にそうしますが)が、wiresharkのようなスニファを使用して、実際にネットワーク上で何が起こっているかを検査します。

あなたは明らかに2つの異なる応答を扱っています。

これにはいくつかの理由が考えられます。1つは、Webサーバーは、クライアントが要求で送信するもの、ヘッダーなどに応じて異なる応答をすることになっています。次に、サーバーが何らかのスニッフィングを行う可能性もあります。Accept-LanguageAccept-EncodingUser-Agent

いずれにせよ、 wiresharkurllibを使用してFirefoxでのリクエストと同様にリクエストをキャプチャし、最初にリクエストを比較します(ヘッダーではなく実際の部分。実際には同じですか?はいの場合は、リクエストヘッダーの比較に進み、手動で設定を開始しますどのヘッダーが違いを生むかがわかるまで、リクエストの同じヘッダー。GET / HTTP/1.0urllib

于 2012-10-05T19:05:18.807 に答える