1

プレーンテキストに変換されたhtmlドキュメントを使用してTokenNameFinderのトレーニングセットを作成していますが、精度が低く、トレーニングの一部としてHTMLタグを使用したいと思います。太字の単語や、余白のサイズが異なる文のように。OpenNLPはこれらのタグを受け入れて使用し、ルールを作成しますか?これらのタグを使用して精度を向上させる別の方法はありますか?

4

1 に答える 1

0

HTMLタグを使用してOpenNLPをトレーニングすることの意味は明確ではありません。列車の入力は、注釈付きのトークン化された文です。

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .

標準ツールを使用してOpenNLPモデルをトレーニングするには、この規則に従うアノテーションが必要です。注釈はXML標準に準拠していないことに注意してください。

トレーニングに使用するHTMLドキュメントに注釈を直接埋め込むことができます。それは追加のコンテキストで分類器を助けるかもしれませんが、私はそれについての実験結果を読んだことがありません。

トレーニングデータはトークン化する必要があることに注意してください。これは、単語と句読点の間、およびテキスト要素とhtmlの間に空白を含める必要があることを意味します。

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .
于 2012-04-11T01:21:05.707 に答える