3

Stanford POS-tagger を使用しようとしています。英語のテキストを解析して (実際には pos タグだけで十分です)、結果を conll 形式で出力できるかどうかを尋ねたいと思います。そのようなオプションはありますか?

Stanford pos tagger の完全な 3.2.0 バージョンを使用しています

どうもありがとう

4

1 に答える 1

3

CONLL フォーマットに関しては、CONLL2000 チャンキング タスク フォーマット自体を意味していると思います。

   He        PRP  B-NP
   reckons   VBZ  B-VP
   the       DT   B-NP
   current   JJ   I-NP
   account   NN   I-NP
   deficit   NN   I-NP
   will      MD   B-VP
   narrow    VB   I-VP
   to        TO   B-PP
   only      RB   B-NP
   #         #    I-NP
   1.8       CD   I-NP
   billion   CD   I-NP
   in        IN   B-PP
   September NNP  B-NP
   .         .    O

CONLL チャンキング タスク形式には 3 つの列があります。

  1. token(つまり単語)
  2. POS鬼ごっこ
  3. BIOチャンク/フレーズタグの (begin, inside, outside)

残念ながら、スタンフォードの MaxEnt タガーを使用すると、との情報しか得られず、チャンク情報はありませんtokenPOSBIO

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

上記のコマンドを使用すると、Stanford POS tagger はすでにタブ区切りの形式を提供していますが、3 番目の列がありません ( http://nlp.stanford.edu/software/pos-tagger-faq.shtmlを参照)。

   He        PRP
   reckons   VBZ
   the       DT
   ...

列を取得するには、次のBIOいずれかが必要です

  • 統計チャンカーまたは
  • 完全なパーサー

チャンカー/パーサーのリストについては、 http: //www-nlp.stanford.edu/links/statnlp.html を参照してください。スタンフォード ツールを使い続けたい場合は、スタンフォード パーサーをお勧めしますが、ブラケット付きの解析形式が得られます。 CONLL2000 形式にするには、後処理を行う必要があります。http://nlp.stanford.edu/software/lex-parser.shtml を参照してください

于 2013-09-22T21:38:32.387 に答える