def convert():
for url in url_list:
news=Article(url)
news.download()
while news.download_state != 2:
time.sleep(1)
news.parse()
l.append(
{'Title':news.title, 'Text': news.text.replace('\n',' '), 'Date':news.publish_date, 'Author':news.authors}
)
convert()
df = pd.DataFrame.from_dict(l)
df.to_csv('Amazon_try2'+'.csv',encoding='utf-8', index=False)
関数 convert() は、url のリストを調べて、それぞれを処理します。各 URL は記事へのリンクです。著者、テキストなどの記事の重要な属性を取得し、これをデータ フレームに格納しています。その後、データフレームをcsvファイルに変換しています。url_list には 589 個の URL があったため、スクリプトは約 5 時間実行されました。しかし、まだcsvファイルを取得できませんでした。誰かが私が間違っているところを見つけてくれますか?