私は最近Scrapyを使い始めました。いくつかのページ(約50)に分割された大きなリストからいくつかの情報を収集しようとしています。リストの最初のページを含め、最初のページから必要なものを簡単に抽出できますstart_urls
。ただし、これらの50ページへのすべてのリンクをこのリストに追加したくありません。もっとダイナミックな方法が必要です。Webページを繰り返しスクレイプする方法を知っている人はいますか?誰かがこれの例を持っていますか?
ありがとう!
私は最近Scrapyを使い始めました。いくつかのページ(約50)に分割された大きなリストからいくつかの情報を収集しようとしています。リストの最初のページを含め、最初のページから必要なものを簡単に抽出できますstart_urls
。ただし、これらの50ページへのすべてのリンクをこのリストに追加したくありません。もっとダイナミックな方法が必要です。Webページを繰り返しスクレイプする方法を知っている人はいますか?誰かがこれの例を持っていますか?
ありがとう!
urllib2 を使用してページをダウンロードします。次に、re (正規表現) または BeautifulSoup (HTML パーサー) を使用して、必要な次のページへのリンクを見つけます。urllib2 でダウンロードします。すすいで繰り返します。
Scapyは素晴らしいですが、あなたがやろうとしていることをするのに必要ではありません
すべてのリンクを 50 ページに追加してみませんか? ページの URL は のように連続していますかwww.site.com/page=1
、www.site.com/page=2
それともすべて別個のものですか? あなたが今持っているコードを見せてもらえますか?