0

私はデータをクロールするのが新しいです。

ここで、Pyquery を使用して、ウェブサイト http://www.greatschools.org/find-schoolsの郵便番号で米国の学校情報をクロールする必要があります。

郵便番号を入力するたびに、検索ページの URL が非常に複雑になります。このような URL を Pyquery でプログラムするのは難しいと思います。

たとえば、郵便番号 95113 を入力すると、結果ページの URL は http://www.greatschools.org/search/search.page?lat=37.3326639&lon=-121.89183639999999&state=CA&locationType=postal_code&sortByになります。 =DISTANCE&normalizedAddress=San+Jose%2C+CA+95113&totalResults=1&city=San+Jose&zipCode=95113&locationSearchString=95113&distance=5

私の質問: 結果ページからデータをクロールしたい場合、Pyquery を使用して結果ページを取得するにはどうすればよいですか? 検索結果のURLはプログラミングで作れるようですが、作成するには長すぎますし、検索対象の郵便番号も数千あります。

より良い解決策はありますか?

4

1 に答える 1

0

以下を使用できます。

PyQuery(url='http://')

次にスクラップします:

for a in doc('a').items():
    PyQuery(url=a.attr.href)
于 2014-01-09T21:44:25.010 に答える