python - Python の urllib3 または requests を使用した gzip された添付ファイルのデコードの例はありますか?

Question

私はちょうど例が必要です...

urllib3 と、(XML の) gzip ファイルが添付されたページをダウンロードする要求の両方を使用した作業コードがあります。

どちらのパッケージでもこの添付ファイルを取得する方法がわかりません。取得できるのは HTML ページだけですが、添付データは取得できません。

どちらかのパッケージでこれを示す例はありますか? 接続プーリングを使用している場合は、別のことを試すこともできます。これが私が求めているものです。

どんな例でもありがとう！

score 1 · Accepted Answer

おそらく、次のようなことができます。

>>> import urllib3
>>> from StringIO import StringIO
>>> import gzip
>>>
>>> http = urllib3.PoolManager()
>>> response = http.request('GET', 'http://www.healthgrades.com/acupuncture-provider-profile-1.xml.gz')
>>> print gzip.GzipFile(fileobj=StringIO(response.data)).read()
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.healthgrades.com/provider/chris-withey-3vvnb</loc>
    <lastmod>2014-05-18T11:51:35.703Z</lastmod>
    <priority>0.9</priority>
    <changefreq>daily</changefreq>
  </url>
  <url>
    <loc>http://www.healthgrades.com/provider/holly-tucker-3w9mm</loc>
    <lastmod>2014-05-18T11:38:53.007Z</lastmod>
    <priority>0.9</priority>
    <changefreq>daily</changefreq>
  </url>
[etc...]

score 0 · Accepted Answer

わかった...私の側のばかげた間違い。

PyCurl で動作する既存のコードに埋もれていた、必要な追加パラメーターを見逃していました。

「https://the.url.I.needed」を指定すると、gzip された添付ファイルを示すヘッダー付きの HTML が生成され、パラメーターが追加されます。

「https://the.url.I.needed?the_param」は、私が期待していた XML を提供します。

お時間を無駄にして申し訳ありません。requests は素晴らしいことのように見えます。現在、プロセスを高速化するために接続プールを試しています。

python - Python の urllib3 または requests を使用した gzip された添付ファイルのデコードの例はありますか?

2 に答える 2

Related

Reference