thenewboston の助けを借りて、Python で素敵な小さな Web クローラーを作成することができました。彼のビデオを見た後、私はそれをいじっていくつかのものを追加しました。記録されたすべてのリンクのすべてのリンクを取得するため、無限にしようとしましたが、失敗しました。同じリンクを複数回記録するという問題もありますか? この問題を解決するにはどうすればよいですか?
これは私のコードです。
import requests
from bs4 import BeautifulSoup
def spider(max_pages):
page = 1
while page <= max_pages:
url = ''
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
for link in soup.findAll("a"):
href = link.get("href")
title = link.get("title")
links = []
#print(href)
#print(title)
try:
get_single_user_data(href)
except:
pass
page += 1
def get_single_user_data(user_url):
source_code = requests.get(user_url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
#for item_name in soup.findAll('span', {'id':'mm-saleDscPrc'}):
# print(item_name.string)
for link in soup.findAll("a"):
href = link.get("href")
print(href)
spider(1)