Android アプリに必要なこのWeb ページをスクレイピングしています。私がやりたいのは、href
属性から国を抽出することです。これはこれと同じです。
これが私のコードです:
from bs4 import BeautifulSoup
import urllib2
import re
html_page = urllib2.urlopen("http://www.howtocallabroad.com/a.html")
soup = BeautifulSoup(html_page)
li = soup.select("ul > li > a")
for link in li:
print link.get('href')
私が得ている問題は、結果が他のa
タグを含むすべてのタグを返すことですdiv
afghanistan/
albania/
algeria/
american-samoa/
andorra/
angola/
anguilla/
antigua/
argentina/
armenia/
aruba/
ascension/
australia/
austria/
azerbaijan/
codes.html # not needed
nanp.html # not needed
qa/ # not needed
forums/ # not needed
これを達成するために必要な機能について知りたいです。href
sのみをフィルタリングしたい<div id="content">
。ドキュメントには多くの情報がありません。
申し訳ありませんが、Pythonを書くのはこれが初めてです。