私はちょうど例が必要です...
urllib3 と、(XML の) gzip ファイルが添付されたページをダウンロードする要求の両方を使用した作業コードがあります。
どちらのパッケージでもこの添付ファイルを取得する方法がわかりません。取得できるのは HTML ページだけですが、添付データは取得できません。
どちらかのパッケージでこれを示す例はありますか? 接続プーリングを使用している場合は、別のことを試すこともできます。これが私が求めているものです。
どんな例でもありがとう!
おそらく、次のようなことができます。
>>> import urllib3
>>> from StringIO import StringIO
>>> import gzip
>>>
>>> http = urllib3.PoolManager()
>>> response = http.request('GET', 'http://www.healthgrades.com/acupuncture-provider-profile-1.xml.gz')
>>> print gzip.GzipFile(fileobj=StringIO(response.data)).read()
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.healthgrades.com/provider/chris-withey-3vvnb</loc>
<lastmod>2014-05-18T11:51:35.703Z</lastmod>
<priority>0.9</priority>
<changefreq>daily</changefreq>
</url>
<url>
<loc>http://www.healthgrades.com/provider/holly-tucker-3w9mm</loc>
<lastmod>2014-05-18T11:38:53.007Z</lastmod>
<priority>0.9</priority>
<changefreq>daily</changefreq>
</url>
[etc...]
わかった...私の側のばかげた間違い。
PyCurl で動作する既存のコードに埋もれていた、必要な追加パラメーターを見逃していました。
「https://the.url.I.needed」を指定すると、gzip された添付ファイルを示すヘッダー付きの HTML が生成され、パラメーターが追加されます。
「https://the.url.I.needed?the_param」は、私が期待していた XML を提供します。
お時間を無駄にして申し訳ありません。requests は素晴らしいことのように見えます。現在、プロセスを高速化するために接続プールを試しています。