これは、(urllib2を使用して)機能しているように見えるもう少し完全な(しかしハッキーな)例です-特定のニーズに合わせてカスタマイズできると確信しています。
また、サイトの所有者がコンテンツをスクレイピングしてもかまわないようにすることについてのArrietaの警告を繰り返します。
#!/usr/bin/env python
import httplib2
h = httplib2.Http(".cache")
parliament = "A7"
year = 2010
#Create two lists, one list of URLs and one list of document numbers.
urllist = []
doclist = []
urltemplate = "http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=%s-%d-%04u&language=EN"
for document in range(0,9999):
url = urltemplate % (parliament,year,document)
resp, content = h.request(url, "GET")
if content.find("Application Error") == -1:
print "Document %04u exists" % (document)
urllist.append(urltemplate % (parliament,year,document))
doclist.append(document)
else:
print "Document %04u doesn't exist" % (document)
print "Parliament %s, year %u has %u documents" % (parliament,year,len(doclist))