2

ここの郡検索ツールから数ページの結果をスクレイピングしようとしています: http://www2.tceq.texas.gov/oce/waci/index.cfm?fuseaction=home.main

しかし、最初のページ以上を反復処理する方法がわかりません。

import csv
from mechanize import Browser
from bs4 import BeautifulSoup

url = 'http://www2.tceq.texas.gov/oce/waci/index.cfm?fuseaction=home.main'

br = Browser()
br.set_handle_robots(False)
br.open(url)

br.select_form("county_search_form")

br.form['county_select'] = ['111111111111180']
br.form['start_date_month'] = ['1']
br.form['start_date_day'] = ['1']
br.form['start_date_year'] = ['2014']

br.submit()

soup = BeautifulSoup(br.response())

complaints = soup.find('table', class_='waciList')

output = []

import requests
for i in xrange(1,8):
    page = requests.get("http://www2.tceq.texas.gov/oce/waci/index.cfm?fuseaction=home.search&pageNumber={}".format(i))
    if not page.ok:
        continue
    soup = BeautifulSoup(requests.text)

    for tr in complaints.findAll('tr'):
        print tr
        output_row = []
        for td in tr.findAll('td'):
            output_row.append(td.text.strip())

        output.append(output_row)

br.open(url)
print 'page 2'
complaints = soup.find('table', class_='waciList')

for tr in complaints.findAll('tr'):
    print tr

with open('out-tceq.csv', 'w') as csvfile:
    my_writer = csv.writer(csvfile, delimiter='|')
    my_writer.writerows(output)

出力 CSV の 1 ページだけの結果を取得していました。bs4 を使用したスクレイプの他の例を調べた後、インポート リクエスト ループを追加しようとしましたが、「ImportError: No module named requests.」というエラー メッセージが表示されました。

結果の 8 ページすべてをループして .csv に入れる方法について何か考えはありますか?

4

1 に答える 1