python - 特定の順序なしリストの抽出
: 美しいスープ

Question

Android アプリに必要なこのWeb ページをスクレイピングしています。私がやりたいのは、href属性から国を抽出することです。これはこれと同じです。

これが私のコードです：

from bs4 import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html")
soup = BeautifulSoup(html_page)
li = soup.select("ul > li > a")
for link in li:
    print link.get('href')

私が得ている問題は、結果が他のaタグを含むすべてのタグを返すことですdiv

afghanistan/
albania/
algeria/
american-samoa/
andorra/
angola/
anguilla/
antigua/
argentina/
armenia/
aruba/
ascension/
australia/
austria/
azerbaijan/
codes.html  # not needed
nanp.html   # not needed
qa/         # not needed
forums/     # not needed

これを達成するために必要な機能について知りたいです。hrefsのみをフィルタリングしたい<div id="content">。ドキュメントには多くの情報がありません。

申し訳ありませんが、Pythonを書くのはこれが初めてです。

score 2 · Accepted Answer

2

試す

li = soup.select("#content ul > li > a")

それ以外の

li = soup.select("ul > li > a")

于 2013-06-04T11:06:57.350 に答える

score 0 · Accepted Answer

このようにしてください：

li = soup.select("#content ul > li > a")

例えば：

li = soup.select("#[call india][1] ul > li > a")

python - 特定の順序なしリストの抽出: 美しいスープ

3 に答える 3

Related

Reference

python - 特定の順序なしリストの抽出
: 美しいスープ