python - Python を使用して Web サイトの複数のページからデータをスクレイピングする

翻译自：https://stackoverflow.com/questions/59627897 2020-01-07T11:51:24.093

210 次

アルジャジーラのウェブサイトから約 500 件の記事をクロールし、4 つのタグを収集したいと考えています。

URL
題名
タグ
著者

ホームページからデータを収集するスクリプトを作成しましたが、いくつかの記事しか収集しません。他の記事は別のカテゴリにあります。どうすれば 500 個の記事を繰り返すことができますか? それを行う効率的な方法はありますか。

import bs4
import pandas as pd
from bs4 import BeautifulSoup
import requests
from collections import Counter
page = requests.get('https://www.aljazeera.com/')
soup = BeautifulSoup(page.content,"html.parser")
article = soup.find(id='more-top-stories')
inside_articles= article.find_all(class_='mts-article mts-default-article')
article_title = [inside_articles.find(class_='mts-article-title').get_text() for inside_articles in inside_articles]
article_dec = [inside_articles.find(class_='mts-article-p').get_text() for inside_articles in inside_articles]
tag = [inside_articles.find(class_='mts-category').get_text() for inside_articles in inside_articles]
link = [inside_articles.find(class_='mts-article-title').find('a') for inside_articles in inside_articles]

python - Python を使用して Web サイトの複数のページからデータをスクレイピングする

1 に答える 1

Related

Reference