Python で高品質の HTML Microdata パーサーを探しています。超高速である必要はありませんが、できるだけ多くの仕様をサポートしたいと考えていitemref
ます.
これまでに見つけたものは次のとおりです。
- https://github.com/edsu/microdata
- https://github.com/RDFLib/pymicrodata
- https://pypi.python.org/pypi/pelican-microdata/0.1
これらのライブラリのいずれかを使用したことがありますか? 長所と短所は何でしたか?
また、フォーマットが不十分な HTML ドキュメントの解析にも興味があります。乱雑な入力を処理する Microdata パーサーを見つけましたか、それとも最初にBeautifulSoupのようなものを介して入力を実行しましたか?