python - 新聞で複数のURLから記事をダウンロードする

Question

記事をダウンロードしたいURLのリストがあるWebページ（zeit online、ドイツの新聞）から複数の記事を抽出しようとしてきたので、URLのページをクロールする必要はありません。

Python 用の新聞パッケージは、1 ページのコンテンツを解析するのに素晴らしい仕事をします。すべての記事がダウンロードされるまで、URL を自動的に変更する必要があります。残念ながら、私はコーディングの知識が限られており、それを行う方法を見つけていません。誰かが私を助けてくれたら、とても感謝しています。

私が試したことの1つは次のとおりです。

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

 first_article = Article(url="%s", language='de') % list

 first_article.download()

 first_article.parse()

 print(first_article.text)

it returned the following error: unsupported operand type for %:'article' and 'str'

これでうまくいくようですが、リンゴとバナナを少なくするもっと簡単な方法があると思います。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import newspaper
from newspaper import Article

lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']

apple = 0
banana = lista[apple]


while apple <4 :

 first_article = Article(url= banana , language='de') 

 first_article.download()

 first_article.parse()

 print(first_article.text).encode('cp850', errors='replace')

 apple += 1
 banana = lista[apple]

score 0 · Accepted Answer

例外が発生します

次のエラーが返されました: %:'article' および 'str' のサポートされていないオペランドタイプです。

間違った変数を設定しているため、9 行目には次のように入力する必要があります。

first_article = Article(url="%s" % list, language='de')

完全なコードは次のとおりです。

import newspaper
from newspaper import Article

lista = ['url','url']


for list in lista:

   first_article = Article(url="%s" % list, language='de')

   first_article.download()

   first_article.parse()

   print(first_article.text)

python - 新聞で複数のURLから記事をダウンロードする

1 に答える 1

Related

Reference