python - requests と BeautifulSoup を使用してファイルをダウンロードする

Question

requestsとbeautifulsoup4を使用して、ここから多数の pdf ファイルをダウンロードしようとしています。これは私のコードです:

import requests
from bs4 import BeautifulSoup as bs

_ANO = '2013/'
_MES = '01/'
_MATERIAS = 'matematica/'
_CONTEXT = 'wp-content/uploads/' + _ANO + _MES
_URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT

r = requests.get(_URL)
soup = bs(r.text)

for i, link in enumerate(soup.findAll('a')):
    _FULLURL = _URL + link.get('href')

    for x in range(i):
        output = open('file[%d].pdf' % x, 'wb')
        output.write(_FULLURL.read())
        output.close()

私は得てAttributeError: 'str' object has no attribute 'read'います。

それはわかっていますが、生成された URL からダウンロードするにはどうすればよいですか?

score 8 · Accepted Answer

これにより、ページのすべてのファイルが元のファイル名でディレクトリに書き込まれますpdfs/。

import requests
from bs4 import BeautifulSoup as bs
import urllib2


_ANO = '2013/'
_MES = '01/'
_MATERIAS = 'matematica/'
_CONTEXT = 'wp-content/uploads/' + _ANO + _MES
_URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT

# functional
r = requests.get(_URL)
soup = bs(r.text)
urls = []
names = []
for i, link in enumerate(soup.findAll('a')):
    _FULLURL = _URL + link.get('href')
    if _FULLURL.endswith('.pdf'):
        urls.append(_FULLURL)
        names.append(soup.select('a')[i].attrs['href'])

names_urls = zip(names, urls)

for name, url in names_urls:
    print url
    rq = urllib2.Request(url)
    res = urllib2.urlopen(rq)
    pdf = open("pdfs/" + name, 'wb')
    pdf.write(res.read())
    pdf.close()

score 6 · Accepted Answer

必要に応じて wget (ユーザーエージェント、フォロー、robots.txt を無視 ...)wgetの全機能を使用できるため、を使用すると簡単になる場合があります。

import os

names_urls = zip(names, urls)

for name, url in names_urls:
    print('Downloading %s' % url)
    os.system('wget %s' % url)

python - requests と BeautifulSoup を使用してファイルをダウンロードする

3 に答える 3

Related

Reference