いくつかの URL の入力を受け取る Python スクリプトがあります。私のスクリプトは、これらの各 URL をループし、各ページから htmltext を出力します。ウェブサイトはこれを 3 つの個別の GET リクエストと見なし、したがってサイトへの 3 つの「ヒット」と見なしますか、それともソケット接続とページへの 1 つの「ヒット」と見なしますか?
デバッグを確認するのが最初のオプションだと思います。もしそうなら、同じサイトの複数の URL からデータを取得することは可能ですが、サイトはこれをサイトへの 1 つの「ヒット」としてのみ見ることができますか? キープアライブ機能を利用して urllib3 でこれを実現できますか?
私のスクリプトは以下の通りです:
for u in url:
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
req = urllib2.Request(u)
req.add_header('User-Agent','Mozilla/5.0')
print urllib2.build_opener(urllib2.HTTPHandler(debuglevel=1)).open(req)
resp = opener.open(req)
htmltext = resp.read()