図書館のウェブサイトを解析して、特定の出版社から情報を入手しようとしています。こちらがウェブサイトへのリンクです。
http://hollis.harvard.edu/?q=publisher:%22sonzogno%22+ex-Everything-7.0:%221700-1943%22+
これまでのところ、美しいスープを使用することで、このページから必要なデータを取得できます。私のスクリプトで問題となるのは、結果セット全体から最初の25エントリ(1ページ分の価値)だけを取得することです。
ここで何が欠けていますか?
これがコードの小さなスニペットです。
def url_parse(name):
if(name == " "):
print 'Invalid Error'
else:
response = urllib2.urlopen(name)
html_doc = response.read()
soup = BeautifulSoup(html_doc)
print soup.title
print soup.find_all("a",{"class":"classiclink"})
#print soup.find("a",{"class":"classiclink"})
aleph_li = [] # creates and emptylist
aleph_li = soup.find_all("a",{"class":"classiclink"})
この後、これらのタグで利用可能な情報を使用する予定です。あなたが言ったように、私はそれらのうちの25個しか取得できません。
URL(ある種のクエリを含む)にはページ情報が含まれていないようであるため、各ページを繰り返すことができません。サーバーに定期的なリクエストを行う方法がわかりません。
ありがとう。