アルジャジーラのウェブサイトから約 500 件の記事をクロールし、4 つのタグを収集したいと考えています。
- URL
- 題名
- タグ
- 著者
ホームページからデータを収集するスクリプトを作成しましたが、いくつかの記事しか収集しません。他の記事は別のカテゴリにあります。どうすれば 500 個の記事を繰り返すことができますか? それを行う効率的な方法はありますか。
import bs4
import pandas as pd
from bs4 import BeautifulSoup
import requests
from collections import Counter
page = requests.get('https://www.aljazeera.com/')
soup = BeautifulSoup(page.content,"html.parser")
article = soup.find(id='more-top-stories')
inside_articles= article.find_all(class_='mts-article mts-default-article')
article_title = [inside_articles.find(class_='mts-article-title').get_text() for inside_articles in inside_articles]
article_dec = [inside_articles.find(class_='mts-article-p').get_text() for inside_articles in inside_articles]
tag = [inside_articles.find(class_='mts-category').get_text() for inside_articles in inside_articles]
link = [inside_articles.find(class_='mts-article-title').find('a') for inside_articles in inside_articles]