0

すべてのリンクが有効であり、無効であり、標準ページにリダイレクトされているものをループでチェックしようとしています

import urllib2
import csv



i=18509
yyy = csv.writer(open('valid_links.csv', 'w'), delimiter=',',quotechar='"',lineterminator="\n")

while i!=0:
   print i
   url="http://investing.businessweek.com/research/stocks/private  /snapshot.asp?privcapId="+str(i)
   request = urllib2.Request(url)
   request.get_method = lambda : 'HEAD'
   response = urllib2.urlopen(request)
   it=response.info()

   #page = urllib2.urlopen(url,timeout=2).geturl()
   yyy.writerow([url,it['Content-Length']])
   i=i+1

チェックするページが 2 億ページ以上あるのですが、もっと効率的な方法はありますか?

4

0 に答える 0