python - 実際のマークアップを変更しないpython htmlパーサー?

Question

PythonでHTMLコードを解析したいので、すでに美しいスープとpyqueryを試しました。問題は、これらのパーサーが元のコードを変更することです。たとえば、タグを挿入するなどです。コードを変更しないパーサーはありますか?

私は試しHTMLParserましたが、成功しませんでした！:( コードを変更せず、タグが配置されている場所を教えてくれるだけです。しかし、mail.live.com のような Web ページの解析に失敗します。ブラウザと同じように Web ページを解析する方法はありますか?

score 1 · Accepted Answer

BeautifulSoup を使用して、タグを変更せずにテキストのみを抽出できます。そのドキュメントにあります。

score 0 · Accepted Answer

Python バインディングでWebkitエンジンを試しましたか?

解析された Web ページの実際の DOM をトラバースして、必要な処理を実行できます。

3 に答える 3