python - Python で Web から情報を抽出するためのパーサー

Question

私の仕事は、HTML ページ (キリル文字) を解析し、特定の単語を抽出することです。解析する必要がある Web ページは次のとおりです: http://www.toponymic-dictionary.in.ua/。私はページだけを手に入れました：

import urllib
from lxml.html import fromstring
url = 'http://www.toponymic-dictionary.in.ua/'
content = urllib.urlopen(url).read()
doc = fromstring(content)
doc.make_links_absolute(url)

HTML コードは (xpath を使用するために) 非常に複雑なので、解析に進む方法がわかりません。

score 1 · Accepted Answer

このライブラリを見てください: BeautifulSoup

およびそのドキュメント

お客様の要件に最適です。

乾杯！

python - Python で Web から情報を抽出するためのパーサー

1 に答える 1

Related

Reference