サイト内の情報を取得してリストに入れ、このリストを csv にエクスポートしようとしています。これはサイトの一部であり、何度か繰り返されます。
<img src="image.jpg" alt="Aclimação">
</a>
</div>
Clique na imagem para ampliar
</div>
<div class="colInfos">
<h4>Aclimação</h4>
<div class="addressInfo">
Rua Muniz de Souza, 1110<br>
Aclimação - São Paulo - SP<br>
01534-001<br>
<br>
(11) 3208-3418 / 2639-0173<br>
<a href="mailto:aclimacao.sp@escolas.com.br">aclimacao.sp@escolas.com.br</a><br>
このサイト内の画像リンク、名前(h4)、住所(addressInfo内、各brはリスト内の個別の項目である必要があります)、各学校のメール(href mailto:)を取得し、s csvファイルにエクスポートしたいと考えています。これが私がしようとしている方法です。しかし、結果オブジェクト「endereco」内を検索する方法がわからないため、問題があります。どうすればよいですか? これは私のコードです:
import urllib2
from BeautifulSoup import BeautifulSoup
url = urllib2.urlopen("http://www.fisk.com.br/unidades?pais=1&uf=&rg=&cid=&ba=&un=")
soup = BeautifulSoup(url)
#nomes = soup.findAll('h4')
dados = []
i = 1
for endereco in enderecos:
text = ''.join(endereco.findAll(???)) **<- how an I search the br's inside this?**
dados[i] = text.encode('utf-8').strip()
i = i +
enderecos = soup.findAll('div', attrs={'class': 'colInfos'})