Pythonドキュメントを使用して、HTMLパーサーを見つけましたが、それを使用するためにインポートするライブラリがわかりません。これを見つけるにはどうすればよいですか(ページに記載されていないことに注意してください)。
8 に答える
おそらく本当にBeautifulSoupが必要な場合は、リンクで例を確認してください。
しかしいずれにせよ
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
試す:
import HTMLParser
Python 3.0では、HTMLParserモジュールの名前がhtml.parserに変更されました。これについては、こちらで確認できます。
Python 3.0
import html.parser
Python2.2以降
import HTMLParser
あなたはlxmlに興味があるかもしれません。これは別のパッケージであり、Cコンポーネントが含まれていますが、最速です。また、非常に優れたAPIを備えているため、HTMLドキュメント内のリンクを簡単に一覧表示したり、フォームを一覧表示したり、HTMLをサニタイズしたりできます。また、整形式ではないHTMLを解析する機能もあります(構成可能です)。
代わりにBeautiful Soupモジュールを使用することをお勧めします。これには優れたドキュメントがあります。
特に無効な HTML (今日の Web の 90% 以上) を処理する場合に、Web ブラウザーの動作と非常によく似た方法で HTML を解析しようとするため、Python 用のhtml5libも確認する必要があります。
速度が必要な場合は、BeautifulSoup はお勧めしません。lxml ははるかに高速であり、デフォルトのパーサーが機能しない場合は、lxml の BS スープパーサーにフォールバックできます。
( http://docs.python.org/2/library/htmlparser.html )の下部に例へのリンクがありますが、元の python または python3 では機能しません。上部にあるように、python2 である必要があります。
実際の HTML 処理には、BeautifulSoupをお勧めします。それは素晴らしく、多くの痛みを取り除きます。インストールは簡単です。