5

通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。

最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。

4

2 に答える 2

5

もう問題はありません - lxml がサポートされています: https://developers.google.com/appengine/docs/python/tools/libraries27

于 2010-02-02T01:31:38.987 に答える
5

BeautifulSoupのドキュメントから:

Beautiful Soup のバージョン 3.1.0 は、バージョン 3.0.8 よりも実際の HTML でのパフォーマンスが大幅に低下します。

したがって、この以前のバージョンを使用すると役立つ場合があります。それはまさに著者自身が推奨していることです。

Beautiful Soup のバージョン 3.1.0 がリリースされたことがないふりをすることができます。バージョン 3.0.8 は、Python 2.3 から 2.6 で引き続き正常に動作します。

于 2010-01-29T12:32:26.540 に答える