スタンフォード NRE ツールを使用して名前付きエンティティにタグを付けようとすると、次のような出力が得られます。
A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.
もちろん、ルートなしで XML を処理しても機能しないため、次のように追加しました。
<root>A jury in <ORGANIZATION>Marion County Superior Court</ORGANIZATION> was expected to begin deliberations in the case on <DATE>Wednesday</DATE> or <DATE>Thursday</DATE>.</root>
この方法でツリーを構築しようとしました: python の lxml でインライン タグを削除しましたが、うまくいきません... 行で次のエラーが発生しますtree = etree.fromstring(text)
:
lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 1793
誰かがこれに対する解決策を知っていますか? あるいは、inlineXML タグを使用して任意のテキストからツリーを構築し、タグ付けされたトークンのみを保持し、残りのテキストを削除/無視する別の方法かもしれません。