python - 動的に読み込まれたコンテンツでの urllib2 の誤動作

Question

いくつかのコード

headers = {}
headers['user-agent'] = 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0'
headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
headers['Accept-Language'] = 'en-gb,en;q=0.5'
#headers['Accept-Encoding'] = 'gzip, deflate'

request = urllib.request.Request(sURL, headers = headers)
try:
    response = urllib.request.urlopen(request)
except error.HTTPError as e:
    print('The server couldn\'t fulfill the request.')
    print('Error code: {0}'.format(e.code))
except error.URLError as e:
    print('We failed to reach a server.')
    print('Reason: {0}'.format(e.reason))
else:
    f = open('output/{0}.html'.format(sFileName),'w')
    f.write(response.read().decode('utf-8'))

URL

http://groupon.cl/descuentos/santiago-centro

状況

これが私がしたことです：

ブラウザで JavaScript を有効にする
上記の URL を開き、コンソールを監視します
JavaScript を無効にする
手順 2 を繰り返します (チューニングしたばかりの場合は、javascript が無効になっています)。
urllib2 を使用して Web ページを取得し、ファイルに保存します。
JavaScript を有効にする
ブラウザでファイルを開き、コンソールを観察します
JavaScriptをオフにして7を繰り返します

結果

ステップ 2 では、ページコンテンツの多くが ajax を使用して動的に読み込まれていることがわかりました。そのため、到着した HTML は一種のスケルトンであり、ギャップを埋めるために ajax が使用されました。これは素晴らしいことであり、まったく驚くべきことではありません
ページは seo に適している必要があるため、js がなくても問題なく動作するはずです。ステップ 4 では、コンソールで何も起こらず、スケルトンページがロードされ、ajax は不要になります。これも全く紛らわしくない
ステップ 7 では、ajax 呼び出しが行われますが失敗します。彼らが使用している URL はローカルではないため、これも問題ありません。したがって、呼び出しは壊れています。ページはスケルトンのように見えます。これも期待大です。
ステップ 8: ajax 呼び出しは行われず、スケルトンは単なるスケルトンです。これはステップ4のように振る舞うべきだと思っていたでしょう

質問

私がやりたいことは、urllib2 を使用してステップ 4 から html を取得することですが、その方法がわかりません。私は何が欠けていますか、どうすればこれをやってのけることができますか?

言い換えると

もし私がスパイダーを書いていたら、普通の HTML を取得できるようにしたいと思うでしょう (ステップ 4 の結果のように)。私はajaxのものやJavaScriptをまったく実行したくありません。動的に何かを入力したくありません。HTMLが欲しいだけです。

SEO フレンドリーなサイトは、私が欲しいものを手に入れることを望んでいます。それが SEO のすべてだからです。

私が概説した状況を考えると、プレーンな HTML コンテンツを取得するにはどうすればよいでしょうか?

手動で行うには、js をオフにし、ページに移動し、ソースを表示し、ctrl-a、ctrl-c、ctrl-v (便利な場所) を使用します。

私のためにそれを行うスクリプトを取得するには...?

私が試したこと

Wireshark を使用してパケットヘッダーを調べましたが、手順 2 と 4 で PC から送信された GET には同じヘッダーが含まれています。SEO について読むと、これはごく普通のことであり、そうでなければ、ハイジャックなどの手法は使用されないだろうと思います。

私のブラウザが送信するヘッダーは次のとおりです。

Host: groupon.cl
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-gb,en;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive

スクリプトが送信するヘッダーは次のとおりです。

Accept-Encoding: identity
Host: groupon.cl
Accept-Language: en-gb,en;q=0.5
Connection: close
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
User-Agent: User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0

違いは次のとおりです。

私のスクリプトには、キープアライブではなく Connection = close があります。これがどのように問題を引き起こすのかわかりません
私のスクリプトには Accept-encoding = identity があります。これが問題の原因である可能性があります。ただし、ホストがこのフィールドを使用してユーザーエージェントを決定する理由はよくわかりません。ブラウザーの要求ヘッダーに一致するようにエンコードを変更すると、デコードに問題が発生します。私は今これに取り組んでいます...

このスペースを見てください。新しい情報が出たら質問を更新します

python - 動的に読み込まれたコンテンツでの urllib2 の誤動作

0 に答える 0

Related

Reference