python - GAE の HTML パーサー

Question

通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。

最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。

score 5 · Accepted Answer

もう問題はありません - lxml がサポートされています: https://developers.google.com/appengine/docs/python/tools/libraries27

score 5 · Accepted Answer

Beautiful Soup のバージョン 3.1.0 は、バージョン 3.0.8 よりも実際の HTML でのパフォーマンスが大幅に低下します。

したがって、この以前のバージョンを使用すると役立つ場合があります。それはまさに著者自身が推奨していることです。

Beautiful Soup のバージョン 3.1.0 がリリースされたことがないふりをすることができます。バージョン 3.0.8 は、Python 2.3 から 2.6 で引き続き正常に動作します。

2 に答える 2