python - PythonのHTMLパーサー

Question

Pythonドキュメントを使用して、HTMLパーサーを見つけましたが、それを使用するためにインポートするライブラリがわかりません。これを見つけるにはどうすればよいですか（ページに記載されていないことに注意してください）。

score 24 · Accepted Answer

おそらく本当にBeautifulSoupが必要な場合は、リンクで例を確認してください。

しかしいずれにせよ

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

score 18 · Accepted Answer

試す：

import HTMLParser

Python 3.0では、HTMLParserモジュールの名前がhtml.parserに変更されました。これについては、こちらで確認できます。

Python 3.0

import html.parser

Python2.2以降

import HTMLParser

score 4 · Accepted Answer

あなたはlxmlに興味があるかもしれません。これは別のパッケージであり、Cコンポーネントが含まれていますが、最速です。また、非常に優れたAPIを備えているため、HTMLドキュメント内のリンクを簡単に一覧表示したり、フォームを一覧表示したり、HTMLをサニタイズしたりできます。また、整形式ではないHTMLを解析する機能もあります（構成可能です）。

score 4 · Accepted Answer

代わりにBeautiful Soupモジュールを使用することをお勧めします。これには優れたドキュメントがあります。

score 4 · Accepted Answer

特に無効な HTML (今日の Web の 90% 以上) を処理する場合に、Web ブラウザーの動作と非常によく似た方法で HTML を解析しようとするため、Python 用のhtml5libも確認する必要があります。

score 3 · Accepted Answer

速度が必要な場合は、BeautifulSoup はお勧めしません。lxml ははるかに高速であり、デフォルトのパーサーが機能しない場合は、lxml の BS スープパーサーにフォールバックできます。

score 1 · Accepted Answer

( http://docs.python.org/2/library/htmlparser.html )の下部に例へのリンクがありますが、元の python または python3 では機能しません。上部にあるように、python2 である必要があります。

score 1 · Accepted Answer

実際の HTML 処理には、BeautifulSoupをお勧めします。それは素晴らしく、多くの痛みを取り除きます。インストールは簡単です。

python - PythonのHTMLパーサー

8 に答える 8

Related

Reference