python - Scrapyを再帰的に使用してWebサイトからWebページをスクレイプする

Question

私は最近Scrapyを使い始めました。いくつかのページ（約50）に分割された大きなリストからいくつかの情報を収集しようとしています。リストの最初のページを含め、最初のページから必要なものを簡単に抽出できますstart_urls。ただし、これらの50ページへのすべてのリンクをこのリストに追加したくありません。もっとダイナミックな方法が必要です。Webページを繰り返しスクレイプする方法を知っている人はいますか？誰かがこれの例を持っていますか？

ありがとう！

score 1 · Accepted Answer

urllib2 を使用してページをダウンロードします。次に、re (正規表現) または BeautifulSoup (HTML パーサー) を使用して、必要な次のページへのリンクを見つけます。urllib2 でダウンロードします。すすいで繰り返します。

Scapyは素晴らしいですが、あなたがやろうとしていることをするのに必要ではありません

score 0 · Accepted Answer

すべてのリンクを 50 ページに追加してみませんか? ページの URL はのように連続していますかwww.site.com/page=1、www.site.com/page=2それともすべて別個のものですか? あなたが今持っているコードを見せてもらえますか？

python - Scrapyを再帰的に使用してWebサイトからWebページをスクレイプする

2 に答える 2

Related

Reference