スタンフォード NLP パッケージ用の CRF モデルをトレーニングするために、XML 形式の構造化情報を活用したいと考えています。XML は次のようになります。
<dates>
<date>Advance Access publication on
<month>July</month>
<day>11</day>,
<year>2007</year>
</date>
</dates>
http://nlp.stanford.edu/software/crf-faq.shtml#aによると、使用できます
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.xml > date.tok
私のトークンを取得します。しかし、XML カプセル化を利用して、トークンに適切なクラスを自動的にタグ付けするにはどうすればよいでしょうか?
スタンフォード NLP パッケージにそのようなサポート/プロセスはありますか?それとも、トークン ファイルを手動で (たとえば XSLT を使用して) 作成する必要がありますか?