python - Beautifulsoupは、順序付けられていないリストdiv < ulからテキストとリンクを抽出します

この Web ページ ( http://www.silvan.dk/butikker )の左側から都市名を抽出しようとしています。その理由は、各都市の物理的な

Question

この Web ページ ( http://www.silvan.dk/butikker )の左側から都市名を抽出しようとしています。その理由は、各都市の物理的な住所を抽出する必要があるためです (リンク先のページに記載されていますが、とりあえず都市名の抽出を開始しました)。より正確には、このコンテナから . しかし、Python と Beautifulsoup を始めたばかりなので、必要な情報を抽出できていません。

結果は次のようになります: City, city-link.

これまでのところ、私は持っています：

import urllib2
import sys, locale, os, re
import lxml.etree
from bs4 import BeautifulSoup

def cp65001(name):
if name.lower() == 'cp65001':
    return codecs.lookup('utf-8')

html_page = urllib2.urlopen("http://www.silvan.dk/butikker",'w')
soup = BeautifulSoup(html_page)
li = soup.select("ul > li > a")
for link in li:
    print link.get('href')

次の出力が得られます。

#1
#2
#3
#4    
#5
#6
#7
#8
#9    
#10
#11
#12
#13
#14    
#15
#16
#17
#18

誰かが私に解決策を教えていただければ幸いです。使い疲れた

div = soup.find('div', id='leftContent')
lis = div.find_all('li')
num_lis = len(lis)

しかし、それは1回の実行で機能しなくなりました。その理由はわかりませんか? お時間をいただきありがとうございます。

score 3 · Accepted Answer

セレクターを次のように変更します。

li = soup.select("ul > li > a")

に：

li = soup.select(".subMenu li a")

出力：

http://www.silvan.dk/butikker/ballerup
http://www.silvan.dk/butikker/birkeroed
http://www.silvan.dk/butikker/city2
http://www.silvan.dk/butikker/esbjerg
http://www.silvan.dk/butikker/fisketorvet
http://www.silvan.dk/butikker/fredericia
http://www.silvan.dk/butikker/frederikshavn
etc

ここでセレクターの非常に優れたドキュメントを見つけることができます

python - Beautifulsoupは、順序付けられていないリストdiv < ulからテキストとリンクを抽出します この Web ページ ( http://www.silvan.dk/butikker )の左側から都市名を抽出しようとしています。その理由は、各都市の物理的な

1 に答える 1

Related

Reference

python - Beautifulsoupは、順序付けられていないリストdiv < ulからテキストとリンクを抽出します

この Web ページ ( http://www.silvan.dk/butikker )の左側から都市名を抽出しようとしています。その理由は、各都市の物理的な