プレーンテキストに変換されたhtmlドキュメントを使用してTokenNameFinderのトレーニングセットを作成していますが、精度が低く、トレーニングの一部としてHTMLタグを使用したいと思います。太字の単語や、余白のサイズが異なる文のように。OpenNLPはこれらのタグを受け入れて使用し、ルールを作成しますか?これらのタグを使用して精度を向上させる別の方法はありますか?
質問する
444 次
1 に答える
0
HTMLタグを使用してOpenNLPをトレーニングすることの意味は明確ではありません。列車の入力は、注釈付きのトークン化された文です。
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .
標準ツールを使用してOpenNLPモデルをトレーニングするには、この規則に従うアノテーションが必要です。注釈はXML標準に準拠していないことに注意してください。
トレーニングに使用するHTMLドキュメントに注釈を直接埋め込むことができます。それは追加のコンテキストで分類器を助けるかもしれませんが、私はそれについての実験結果を読んだことがありません。
トレーニングデータはトークン化する必要があることに注意してください。これは、単語と句読点の間、およびテキスト要素とhtmlの間に空白を含める必要があることを意味します。
<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .
于 2012-04-11T01:21:05.707 に答える