1

技術文書を追跡システムにインポートするプロジェクトに取り組んでいます。少数の出版物には埋め込みが含まれていHTMLます。これは正常な動作でありHTML、本文に太字や斜体などの書式を追加するために通常使用される を取り除きます。

現在、 を含むドキュメントを受信して​​いますMathML。マークアップを取り除き、適切なテキストに相当するものを提供するライブラリ (またはアプローチ) はありますか? MathMLこれによりグラフィック表現が可能になることは理解していますが、それらにも同等のテキストがあります。

4

1 に答える 1

0

これを行うには、MathML を処理して解釈する必要があります。HTML マークアップを削除する場合とは異なり、タグを削除すると、通常は数式から意味が削除されます。

したがって、mathml パーサーが必要になります。David Carlisle によるものと xslt ベースのものが 2 つ思い浮かびます: pmml2tex は Latex 形式に変換されます。\frac{a+b+c}{2\times 5}

あるいは、pmathmlascii は mathml のアスキー アート表現をほとんど行いません。あなたの例は次のようにレンダリングされます

a + b + c
---------
  2 * 5

または類似。

どちらのスタイルシートも Google コードで見つけることができ、https://code.google.com/p/web-xslt/wiki/Overviewで説明されています。

于 2013-10-01T18:13:06.403 に答える