0

Android アプリに必要なこのWeb ページをスクレイピングしています。私がやりたいのは、href属性から国を抽出することです。これはこれと同じです

これが私のコードです:

from bs4 import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html")
soup = BeautifulSoup(html_page)
li = soup.select("ul > li > a")
for link in li:
    print link.get('href')

私が得ている問題は、結果が他のaタグを含むすべてのタグを返すことですdiv

afghanistan/
albania/
algeria/
american-samoa/
andorra/
angola/
anguilla/
antigua/
argentina/
armenia/
aruba/
ascension/
australia/
austria/
azerbaijan/
codes.html  # not needed
nanp.html   # not needed
qa/         # not needed
forums/     # not needed

これを達成するために必要な機能について知りたいです。hrefsのみをフィルタリングしたい<div id="content">ドキュメントには多くの情報がありません。

申し訳ありませんが、Pythonを書くのはこれが初めてです。

4

3 に答える 3

2

試す

li = soup.select("#content ul > li > a")

それ以外の

li = soup.select("ul > li > a")
于 2013-06-04T11:06:57.350 に答える
0

このようにしてください:

li = soup.select("#content ul > li > a")

例えば:

li = soup.select("#[call india][1] ul > li > a")
于 2015-03-02T13:05:38.953 に答える