python - Web サイトからテーブルデータをスクレイピングする

Question

BeautifulSoup4 と Python を使用して Web サイトからテーブルデータをスクレイピングし、その結果を Excel ドキュメントに作成しようとしています。これまでのところ、私はこれを持っています：

import urllib2
from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://opl.tmhp.com/ProviderManager/SearchResults.aspx?TPI=&OfficeHrs=4&ProgType=STAR&UCCIndicator=No+Preference&Cnty=&NPI=&Srvs=6&Age=All&Gndr=B&SortBy=Distance&ZipCd=78552&SrvsOfrd=0&SpecCd=0&Name=&CntySrvd=0&Plan=H3&WvrProg=0&SubSpecCd=0&AcptPnt=Y&Rad=200&LangCd=99').read())

for row in soup('table', {'class' : 'spad'})[0].tbody('tr'):
    tds = row('td')
    print tds[0].string, tds[1].string

しかし、データを表示するのはうまくいきません。

何か案は？

score 5 · Accepted Answer

まず第一に、クラスはStandardResultsGridではなくspadです。

第二に、あなたはそれを必要としませんtbody。単純に使用します：

for row in soup('table', {'class' : 'StandardResultsGrid'})[0]('tr'):

また、元のページにはなぜかヘッダーのある行が含まれtbodyているため、最初の行をスキップする必要があることに注意してください。

for row in soup('table', {'class' : 'StandardResultsGrid'})[0]('tr')[1:]

また、一部のセルにはs が含まれているため、 s の内容を注意深くtable解析する必要があることに注意してください。td

python - Web サイトからテーブル データをスクレイピングする

1 に答える 1

Related

Reference

python - Web サイトからテーブルデータをスクレイピングする