-2

thenewboston の助けを借りて、Python で素敵な小さな Web クローラーを作成することができました。彼のビデオを見た後、私はそれをいじっていくつかのものを追加しました。記録されたすべてのリンクのすべてのリンクを取得するため、無限にしようとしましたが、失敗しました。同じリンクを複数回記録するという問題もありますか? この問題を解決するにはどうすればよいですか?

これは私のコードです。

import requests
from bs4 import BeautifulSoup

def spider(max_pages):
    page = 1
    while page <= max_pages:
        url = ''
        source_code = requests.get(url)
        plain_text = source_code.text
        soup = BeautifulSoup(plain_text, "html.parser")
        for link in soup.findAll("a"):
            href = link.get("href")
            title = link.get("title")
            links = []
            #print(href)
            #print(title)
            try:
                get_single_user_data(href)
            except:
                pass
        page += 1

def get_single_user_data(user_url):
    source_code = requests.get(user_url)
    plain_text = source_code.text
    soup = BeautifulSoup(plain_text, "html.parser")
    #for item_name in soup.findAll('span', {'id':'mm-saleDscPrc'}):
    #   print(item_name.string)
    for link in soup.findAll("a"):
        href = link.get("href")
        print(href)


spider(1)
4

1 に答える 1