通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。
最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。
通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。
最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。
もう問題はありません - lxml がサポートされています: https://developers.google.com/appengine/docs/python/tools/libraries27
Beautiful Soup のバージョン 3.1.0 は、バージョン 3.0.8 よりも実際の HTML でのパフォーマンスが大幅に低下します。
したがって、この以前のバージョンを使用すると役立つ場合があります。それはまさに著者自身が推奨していることです。
Beautiful Soup のバージョン 3.1.0 がリリースされたことがないふりをすることができます。バージョン 3.0.8 は、Python 2.3 から 2.6 で引き続き正常に動作します。