xml - Named Entity Recognition (NER) のトレーニングセットとして使用する XML の変換

翻译自：https://stackoverflow.com/questions/29171226 2015-03-20T16:18:28.627

783 次

スタンフォード NLP パッケージ用の CRF モデルをトレーニングするために、XML 形式の構造化情報を活用したいと考えています。XML は次のようになります。

<dates>
   <date>Advance Access publication on 
      <month>July</month>
      <day>11</day>, 
      <year>2007</year>
   </date>
</dates>

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok

私のトークンを取得します。しかし、XML カプセル化を利用して、トークンに適切なクラスを自動的にタグ付けするにはどうすればよいでしょうか?

スタンフォード NLP パッケージにそのようなサポート/プロセスはありますか?それとも、トークンファイルを手動で (たとえば XSLT を使用して) 作成する必要がありますか?

xml - Named Entity Recognition (NER) のトレーニング セットとして使用する XML の変換