7

Pythonドキュメントを使用して、HTMLパーサーを見つけましたが、それを使用するためにインポートするライブラリがわかりません。これを見つけるにはどうすればよいですか(ページに記載されていないことに注意してください)。

4

8 に答える 8

24

おそらく本当にBeautifulSoupが必要な場合は、リンクで例を確認してください。

しかしいずれにせよ

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
于 2008-09-16T10:54:05.363 に答える
18

試す:

import HTMLParser

Python 3.0では、HTMLParserモジュールの名前がhtml.parserに変更されました。これについては、こちらで確認できます。

Python 3.0

import html.parser

Python2.2以降

import HTMLParser
于 2008-09-16T10:51:40.517 に答える
4

あなたはlxmlに興味があるかもしれません。これは別のパッケージであり、Cコンポーネントが含まれていますが、最速です。また、非常に優れたAPIを備えているため、HTMLドキュメント内のリンクを簡単に一覧表示したり、フォームを一覧表示したり、HTMLをサニタイズしたりできます。また、整形式ではないHTMLを解析する機能もあります(構成可能です)。

于 2008-09-17T11:19:11.393 に答える
4

代わりにBeautiful Soupモジュールを使用することをお勧めします。これには優れたドキュメントがあります。

于 2008-09-16T10:54:21.023 に答える
4

特に無効な HTML (今日の Web の 90% 以上) を処理する場合に、Web ブラウザーの動作と非常によく似た方法で HTML を解析しようとするため、Python 用のhtml5libも確認する必要があります。

于 2008-09-16T12:14:04.750 に答える
3

速度が必要な場合は、BeautifulSoup はお勧めしません。lxml ははるかに高速であり、デフォルトのパーサーが機能しない場合は、lxml の BS スープパーサーにフォールバックできます。

于 2008-09-16T13:21:55.523 に答える
1

( http://docs.python.org/2/library/htmlparser.html )の下部に例へのリンクがありますが、元の python または python3 では機能しません。上部にあるように、python2 である必要があります。

于 2008-09-16T10:52:39.563 に答える
1

実際の HTML 処理には、BeautifulSoupをお勧めします。それは素晴らしく、多くの痛みを取り除きます。インストールは簡単です。

于 2008-09-16T10:55:20.070 に答える