1

私の仕事は、HTML ページ (キリル文字) を解析し、特定の単語を抽出することです。解析する必要がある Web ページは次のとおりです: http://www.toponymic-dictionary.in.ua/。私はページだけを手に入れました:

import urllib
from lxml.html import fromstring
url = 'http://www.toponymic-dictionary.in.ua/'
content = urllib.urlopen(url).read()
doc = fromstring(content)
doc.make_links_absolute(url)

HTML コードは (xpath を使用するために) 非常に複雑なので、解析に進む方法がわかりません。

4

1 に答える 1

1

このライブラリを見てください: BeautifulSoup

およびそのドキュメント

お客様の要件に最適です。

乾杯!

于 2013-04-04T09:47:27.893 に答える