MathType を使用して Word 文書から生成している mml を含む html があります。BeautifulSoup を使用して整形する python スクリプトがありますが、問題は、それが ∠ 記号である∠
実際のバイト シーケンスに変換されることです。ブラウザで∠として表示されない0xE2 0x88 0xA0
ため、これは問題です。0xE2 0x88 0xA0
代わりに、ブラウザはそれを一連のラテン文字として解釈します。これは、Δ ∠ − +... などのすべての数学エンティティでも発生しています。
BeautifulSoup のドキュメントを調べたところ、エンティティをバイト シーケンスに変換する方法がわかりましたが、そのコマンドは使用していません。私が使っているのは prettify() だけです。また、BeautifulSoup のドキュメントには、エンティティをバイト シーケンスに変換しない方法がありませんでした。
エンティティをバイト シーケンスに変更しないように指定する設定が BeautifulSoup にあるかどうかは誰にもわかりませんか? prettify の実行後にダメージを元に戻さなければならないのはちょっとばかげているように思えるので、そう願っています :)
よろしくお願いします。