2

目標は、科学的なテキストの構文解析です。まず、そのようなテキストの文の品詞タグ付けを行う必要があります。テキストはarxiv.orgからのものです。したがって、元は LaTeX です。LaTeX ドキュメントからテキストを抽出する場合、数式を MathML に変換できます (または他の形式かもしれませんが、特定の Web アプリを作成するためにこの作業が行われているため、私は MathML を好みます。MathML はそのための便利なツールです)。

私が持っている唯一のアイデアは、数式を自然言語のいくつかのフレーズに置き換えてから、投稿タグ付けに実装されたアルゴリズムを使用することです。問題は、この置換をどのように実装するか、または一般的に、数学を含むテキストの pos-tagging をどのように実装するかです。

4

2 に答える 2

0

Stanford tagger の上に数式置換アルゴリズムを実装しましたが、非常にうまく機能します。abecadel が書いたように、すべての式をユニークだが新しい単語に置き換えるには、単語とハッシュ「formula-duwkziah」の組み合わせを使用しました。

于 2014-02-13T15:51:26.363 に答える
0

すべての数式を単一の一意の単語に置き換えることが、進むべき道のようです。

于 2013-04-27T01:24:55.000 に答える