2 つの別々の呼び出しを行う代わりに、python を使用して 1 つの http 要求を作成し、html と http ヘッダー情報の両方を取得する可能性を調査しています。
何か良い方法を知っている人はいますか?
また、urllib2 や httpconnection など、これらのリクエストを作成するさまざまな方法のパフォーマンスの違いは何ですか。
2 つの別々の呼び出しを行う代わりに、python を使用して 1 つの http 要求を作成し、html と http ヘッダー情報の両方を取得する可能性を調査しています。
何か良い方法を知っている人はいますか?
また、urllib2 や httpconnection など、これらのリクエストを作成するさまざまな方法のパフォーマンスの違いは何ですか。
を使用するだけurllib2.urlopen()
です。HTML はread()
、返されたオブジェクトのメソッドを呼び出すことで取得でき、ヘッダーはheaders
属性で使用できます。
import urllib2
f = urllib2.urlopen('http://www.google.com')
>>> print f.headers
Date: Fri, 08 Jun 2012 12:57:25 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Server: gws
X-XSS-Protection: 1; mode=block
X-Frame-Options: SAMEORIGIN
Connection: close
>>> print f.read()
<!doctype html><html itemscope itemtype="http://schema.org/WebPage"><head><meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
... etc ...
HTTPResponseを使用すると、2 つの関数呼び出しでヘッダーとコンテンツを処理できますが、サーバーへの 2 回のトリップは行われません。