python - pisa v3.0.33 での xhtml サポート

Question

pisaを使用してhtmlをpdfに変換しようとしています。次のコード行を使用しています-

pisa.CreatePDF(htmlCode, pdfFile, xhtml=True )

次のエラーが表示されます。「モジュール」オブジェクトに属性「XHTMLParser」がありませんというエラーで PDF の作成に失敗しました

html5lib 1.0b3 がインストールされています。以前は機能していましたが、何かが起こりました (一部のモジュールを更新した可能性があります)。上記のエラーが発生し続ける理由を知っている人はいますか?

「xhtml=True」を渡さないと、呼び出しは成功しますが、生成される pdf はすべて間違っています。どうにかしてこれを回避できますか？Web ページを xhtml から html に変換することは可能ですか?

特定のページが xhtml であるかどうかを知るにはどうすればよいですか?

最後の 2 つの質問は、html コードを記述せず、読み取ることしかできないため、意味をなさない可能性があります。

助けてくれてありがとう。

score 0 · Accepted Answer

html5parser にはありませんXHTMLParser。pisaのソースコードは、xhtml=Trueフラグが永続的に壊れていることを示しています。

if xhtml:
    #TODO: XHTMLParser doesn't see to exist...
    parser = html5lib.XHTMLParser(tree=treebuilders.getTreeBuilder("dom"))

幸いなことに、XHTML も有効な HTML であることが多いため、変換する必要はありません。したがって、生成された pdf がすべて間違っている理由を単純に調べてください。XHTML はここでは問題ではありません。

1 に答える 1