5

私はpythonの初心者です。これがpython 2.7.5で動作する私のコードです

import urllib2
import sys       

url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data

そのような HTML マークアップを取得すると、機能します。

私がやりたいことは、<font class="big"></font>タグ内から値を取得することです。例のために。この例のデータ値が必要です:

<font class="big">Data</font>

どうやってするの?

4

2 に答える 2

7

次のような HTML パーサー モジュールを使用できますBeautifulSoup

from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text

これは<font>class="big". 次に、その内容を出力します。

于 2013-09-06T11:39:47.870 に答える
1

使用lxml:

import urllib2
import lxml.html

url ="mydomain.com"

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
for font in lxml.html.fromstring(data).cssselect('font.big'):
    print font.text

>>> import lxml.html
>>> root = lxml.html.fromstring('<font class="big">Data</font>')
>>> [font.text for font in root.cssselect('font.big')]
['Data']
于 2013-09-06T11:40:20.867 に答える