技術文書を追跡システムにインポートするプロジェクトに取り組んでいます。少数の出版物には埋め込みが含まれていHTML
ます。これは正常な動作でありHTML
、本文に太字や斜体などの書式を追加するために通常使用される を取り除きます。
現在、 を含むドキュメントを受信していますMathML
。マークアップを取り除き、適切なテキストに相当するものを提供するライブラリ (またはアプローチ) はありますか? MathML
これによりグラフィック表現が可能になることは理解していますが、それらにも同等のテキストがあります。