python - 効率的な方法でPythonでHTMLまたはXHTMLまたはXMLを解析する方法は？

Question

私のPython環境は2.7です

これは古い質問だとは思いますが、他の人の質問と回答を探して読んでいると、頭がおかしくなりました。それらのいくつかは本当に時代遅れです。以下のコードのように：

import lxml #wrong
import xml #correct

ですから、私はPythonの初心者であり、Pythonの偉大な歴史の中で何も知らないので、物事をより明確にしたいと思います。たとえば、Pythonのいわゆる標準xml-parserモジュールとは何ですか？xpath構文を使用してHTMLを解析する必要がある場合はどうすればよいですか。不正な形式のHTMLソースコードがある場合、BeautifulSoupなどを使用しないことでどのように処理できますか。何か説明していただければ幸いです。

OK、全体として、質問が1つだけあります。python2.7で標準のpythonモジュールを使用して不正な形式のhtmlコードを解析するにはどうすればよいですか？

score 2 · Accepted Answer

標準ライブラリに固執する必要がある場合は、 Pythonライブラリのドキュメントをお読みください。

そうでない場合は、間違いなくlxmlを見てください。

python - 効率的な方法でPythonでHTMLまたはXHTMLまたはXMLを解析する方法は？

1 に答える 1

Related

Reference