SGML を使用して構造化された文書がいくつかあり、この構造を記述した DTD ファイルがあります。
このデータを解析するために、誰かが Python-3 互換のライブラリまたはモジュールを推奨してくれませんか? Python 2.x の場合、私の Google-fu はSGMLParserを有効にしているようですが、もちろんそれは非推奨になりました (そして Py3k から完全に削除されました)。
多くの人が を示唆しているようですlxml
が、依存関係の問題のため、それは私にとって選択肢ではありません。
乱雑なマークアップに最適であることはわかってBeautifulSoup
いますが、A) py3k と互換性がないと最後に聞いたのですが、B) このコンテンツは適切に構造化されています。