html - Python3.1 を使用して HTML ページからデータを抽出するにはどうすればよいですか?

Question

以下の例に似たものを含む約 1000 ページがディスクにローカルに保存されています。

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

文字列 Dave を 3 行目から抽出し、それを UserName リストにロードする方法を理解するのに助けが必要です。また、4 行目から 00000001 を抽出し、UserID リストにロードする必要があります。

助けてください、ありがとう...

score 1 · Accepted Answer

html.parser モジュール ( http://docs.python.org/py3k/library/html.parser.html#module-html.parser ) を調べます。

score 0 · Accepted Answer

MiniDom を使用して XHTML/XML を解析できます。

あるいは、Python には HTMLParser が組み込まれています。

http://docs.python.org/library/htmlparser.html

html - Python3.1 を使用して HTML ページからデータを抽出するにはどうすればよいですか?

2 に答える 2

Related

Reference