目標は、科学的なテキストの構文解析です。まず、そのようなテキストの文の品詞タグ付けを行う必要があります。テキストはarxiv.orgからのものです。したがって、元は LaTeX です。LaTeX ドキュメントからテキストを抽出する場合、数式を MathML に変換できます (または他の形式かもしれませんが、特定の Web アプリを作成するためにこの作業が行われているため、私は MathML を好みます。MathML はそのための便利なツールです)。
私が持っている唯一のアイデアは、数式を自然言語のいくつかのフレーズに置き換えてから、投稿タグ付けに実装されたアルゴリズムを使用することです。問題は、この置換をどのように実装するか、または一般的に、数学を含むテキストの pos-tagging をどのように実装するかです。