python - 結果オブジェクト内を検索 - Python、BeatifulSoup

Question

サイト内の情報を取得してリストに入れ、このリストを csv にエクスポートしようとしています。これはサイトの一部であり、何度か繰り返されます。

<img src="image.jpg" alt="Aclimação">
</a>
</div>
Clique na imagem para ampliar
</div>
<div class="colInfos">
<h4>Aclimação</h4>
<div class="addressInfo">
Rua Muniz de Souza, 1110<br>
Aclimação - São Paulo - SP<br>
01534-001<br>
<br>
(11) 3208-3418 / 2639-0173<br>
<a href="mailto:aclimacao.sp@escolas.com.br">aclimacao.sp@escolas.com.br</a><br>

このサイト内の画像リンク、名前(h4)、住所(addressInfo内、各brはリスト内の個別の項目である必要があります)、各学校のメール(href mailto:)を取得し、s csvファイルにエクスポートしたいと考えています。これが私がしようとしている方法です。しかし、結果オブジェクト「endereco」内を検索する方法がわからないため、問題があります。どうすればよいですか? これは私のコードです:

import urllib2
from BeautifulSoup import BeautifulSoup


url = urllib2.urlopen("http://www.fisk.com.br/unidades?pais=1&uf=&rg=&cid=&ba=&un=")
soup = BeautifulSoup(url)
#nomes = soup.findAll('h4')

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(???)) **<- how an I search the br's inside this?**
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

score 0 · Accepted Answer

それは本当にうまくいきます。あなたがしなければならないのは交換することだけです

dados = []
i = 1

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados[i] = text.encode('utf-8').strip()
    i = i +     

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

と

dados = []

enderecos = soup.findAll('div', attrs={'class': 'colInfos'})

for endereco in enderecos:
    text = ''.join(endereco.findAll(text=True))
    dados.append(text.encode('utf-8').strip())
print dados

python - 結果オブジェクト内を検索 - Python、BeatifulSoup

1 に答える 1

Related

Reference