1

PythonでHTMLコードを解析したいので、すでに美しいスープとpyqueryを試しました。問題は、これらのパーサーが元のコードを変更することです。たとえば、タグを挿入するなどです。コードを変更しないパーサーはありますか?


私は試しHTMLParserましたが、成功しませんでした!:( コードを変更せず、タグが配置されている場所を教えてくれるだけです。しかし、mail.live.com のような Web ページの解析に失敗します。ブラウザと同じように Web ページを解析する方法はありますか?

4

3 に答える 3

1

BeautifulSoup を使用して、タグを変更せずにテキストのみを抽出できます。そのドキュメントにあります。

ここで同じ質問: 美しいスープからテキストを抽出する方法

于 2012-12-13T11:47:14.207 に答える
0

Python バインディングでWebkitエンジンを試しましたか?

これを参照してください: https://github.com/niwibe/phantompy

解析された Web ページの実際の DOM をトラバースして、必要な処理を実行できます。

于 2013-08-21T06:57:18.930 に答える