6

Python で高品質の HTML Microdata パーサーを探しています。超高速である必要はありませんが、できるだけ多くの仕様をサポートしたいと考えていitemrefます.

これまでに見つけたものは次のとおりです。

これらのライブラリのいずれかを使用したことがありますか? 長所と短所は何でしたか?

また、フォーマットが不十分な HTML ドキュメントの解析にも興味があります。乱雑な入力を処理する Microdata パーサーを見つけましたか、それとも最初にBeautifulSoupのようなものを介して入力を実行しましたか?

4

1 に答える 1

4

Microdata をどの形式に解析しますか?

https://github.com/RDFLib/pymicrodataは RDF に解析されます。

代わりに JSON が必要な場合は、https://github.com/edsu/microdataを使用する必要があります。これは最近注目を集めており、仕様により準拠しているはずです。

https://pypi.python.org/pypi/pelican-microdata/0.1は、特定の静的サイト ジェネレーター用の Microdata を生成する方法のように見えるため、解析には役立たないと思います。

上記のパーサーのいずれかが、フォーマットが不十分な HTML に対してどの程度許容できるかはわかりません。Microdata を使用した不適切なフォーマットのマークアップをご存知でしたら、Ruby パーサーがこれらのケースをどれだけうまく処理できるかを知りたいと思います。

于 2013-04-02T12:39:31.203 に答える