3

私は、yellowpages.com の Web スクレイパーに取り組んでいますが、全体的にうまく機能しているようです。ただし、長いクエリのページネーションを繰り返し処理している間、 requests.get(url) はランダムに<Response [503]>orを返し<Response [404]>ます。時折、次のようなより悪い例外が発生します。

requests.exceptions.ConnectionError: HTTPConnectionPool(host='www.yellowpages.com', port=80): URL で最大再試行回数を超えました: /search?search_terms=florists&geo_location_terms=FL&page=22 (NewConnectionError(':新しい接続: [WinError 10053] 確立された接続は、ホスト マシンのソフトウェアによって中止されました',))

time.sleep() を使用すると 503 エラーが解消されるように見えますが、404 と例外の問題は残ります。

さまざまな応答を「キャッチ」する方法を見つけようとしているので、変更 (待機、プロキシの変更、ユーザーエージェントの変更) を行い、再試行および/または先に進むことができます。次のような疑似コードを作成します。

If error/exception with request.get:
    wait and/or change proxy and user agent
    retry request.get
else:
    pass

この時点で、次を使用して問題をキャプチャすることさえできないようです。

try:
    r = requests.get(url)
except requests.exceptions.RequestException as e:
    print (e)
    import sys #only added here, because it's not part of my stable code below
    sys.exit()

私がgithubと以下から始めている場所の完全なコード:

import requests
from bs4 import BeautifulSoup
import itertools
import csv

# Search criteria
search_terms = ["florists", "pharmacies"]
search_locations = ['CA', 'FL']

# Structure for Data
answer_list = []
csv_columns = ['Name', 'Phone Number', 'Street Address', 'City', 'State', 'Zip Code']


# Turns list of lists into csv file
def write_to_csv(csv_file, csv_columns, answer_list):
    with open(csv_file, 'w') as csvfile:
        writer = csv.writer(csvfile, lineterminator='\n')
        writer.writerow(csv_columns)
        writer.writerows(answer_list)


# Creates url from search criteria and current page
def url(search_term, location, page_number):
    template = 'http://www.yellowpages.com/search?search_terms={search_term}&geo_location_terms={location}&page={page_number}'
    return template.format(search_term=search_term, location=location, page_number=page_number)


# Finds all the contact information for a record
def find_contact_info(record):
    holder_list = []
    name = record.find(attrs={'class': 'business-name'})
    holder_list.append(name.text if name is not None else "")
    phone_number = record.find(attrs={'class': 'phones phone primary'})
    holder_list.append(phone_number.text if phone_number is not None else "")
    street_address = record.find(attrs={'class': 'street-address'})
    holder_list.append(street_address.text if street_address is not None else "")
    city = record.find(attrs={'class': 'locality'})
    holder_list.append(city.text if city is not None else "")
    state = record.find(attrs={'itemprop': 'addressRegion'})
    holder_list.append(state.text if state is not None else "")
    zip_code = record.find(attrs={'itemprop': 'postalCode'})
    holder_list.append(zip_code.text if zip_code is not None else "")
    return holder_list


# Main program
def main():
    for search_term, search_location in itertools.product(search_terms, search_locations):
        i = 0
        while True:
            i += 1
            url = url(search_term, search_location, i)
            r = requests.get(url)
            soup = BeautifulSoup(r.text, "html.parser")
            main = soup.find(attrs={'class': 'search-results organic'})
            page_nav = soup.find(attrs={'class': 'pagination'})
            records = main.find_all(attrs={'class': 'info'})
            for record in records:
                answer_list.append(find_contact_info(record))
            if not page_nav.find(attrs={'class': 'next ajax-page'}):
                csv_file = "YP_" + search_term + "_" + search_location + ".csv"
                write_to_csv(csv_file, csv_columns, answer_list)  # output data to csv file
                break

if __name__ == '__main__':
    main()

この長い投稿/返信を読むために時間を割いていただきありがとうございます:)

4

3 に答える 3

0

このようなものはどうですか

try:
    req = ..
    if req.status_code == 503:
        pass
    elif ..:
        pass
    else:
        do something when request succeeds
except ConnectionError:
    pass
于 2016-08-09T18:27:19.850 に答える