私はいくつかのランダムな HTML を持っていて、それを解析するために BeautifulSoup を使用しましたが、ほとんどの場合 (>70%) チョークします。Beautiful Soup 3.0.8 と 3.2.0 を使ってみましたが(3.1.0 以上は若干問題あり)、結果はほぼ同じです。
Python で利用可能ないくつかの HTML パーサー オプションを頭のてっぺんから思い出すことができます。
- 美しいスープ
- lxml
- パイクエリ
これらすべてをテストするつもりですが、テストでどれが最も寛容で、悪いHTMLを解析しようとすることさえできるか知りたいと思いました.