python - サイト内の複数のリンクからデータをスクレイピングする

Question

さまざまなサイトから大量の情報をスクレイピングするスクレイパーを構築するために、scraperwiki と python を使用したいと考えています。単一の URL を指定して、そのサイト内の各リンクからデータをスクレイピングできるかどうか疑問に思っています。

例: サイトには、さまざまなプロジェクトに関する情報が含まれており、それぞれが独自のリンク内にあります。これらのリンクのリストは必要ありませんが、リンクに含まれる実際のデータは必要です。

スクレーパーは、各リンクで同じ属性を探します。

どうすれば、または私がこれを行うことができるかを知っている人はいますか?

ありがとう！

score 1 · Accepted Answer

urllib2 で BeautifulSoup をチェックしてください。

(非常に) 大まかなリンクスクレーパーの例は次のようになります。

from bs4 import BeautifulSoup
import urllib2

c = urllib2.urlopen(url)
contents = c.read()
soup = BeautifulSoup(contents)
links = soup.find_all(a):

次に、for ループを記述して、それを何度も繰り返すだけで準備完了です。

1 に答える 1