nlp - 結果を conll 形式で出力します (POS タグ付け、stanford pos tagger)

Question

Stanford POS-tagger を使用しようとしています。英語のテキストを解析して (実際には pos タグだけで十分です)、結果を conll 形式で出力できるかどうかを尋ねたいと思います。そのようなオプションはありますか？

Stanford pos tagger の完全な 3.2.0 バージョンを使用しています

どうもありがとう

score 3 · Accepted Answer

CONLL フォーマットに関しては、CONLL2000 チャンキングタスクフォーマット自体を意味していると思います。

   He        PRP  B-NP
   reckons   VBZ  B-VP
   the       DT   B-NP
   current   JJ   I-NP
   account   NN   I-NP
   deficit   NN   I-NP
   will      MD   B-VP
   narrow    VB   I-VP
   to        TO   B-PP
   only      RB   B-NP
   #         #    I-NP
   1.8       CD   I-NP
   billion   CD   I-NP
   in        IN   B-PP
   September NNP  B-NP
   .         .    O

CONLL チャンキングタスク形式には 3 つの列があります。

token(つまり単語)
POS鬼ごっこ
BIOチャンク/フレーズタグの (begin, inside, outside)

残念ながら、スタンフォードの MaxEnt タガーを使用すると、との情報しか得られず、チャンク情報はありませんtokenPOSBIO。

java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null

上記のコマンドを使用すると、Stanford POS tagger はすでにタブ区切りの形式を提供していますが、3 番目の列がありません ( http://nlp.stanford.edu/software/pos-tagger-faq.shtmlを参照)。

   He        PRP
   reckons   VBZ
   the       DT
   ...

列を取得するには、次のBIOいずれかが必要です。

統計チャンカーまたは
完全なパーサー

チャンカー/パーサーのリストについては、 http: //www-nlp.stanford.edu/links/statnlp.html を参照してください。スタンフォードツールを使い続けたい場合は、スタンフォードパーサーをお勧めしますが、ブラケット付きの解析形式が得られます。 CONLL2000 形式にするには、後処理を行う必要があります。http://nlp.stanford.edu/software/lex-parser.shtml を参照してください。

nlp - 結果を conll 形式で出力します (POS タグ付け、stanford pos tagger)

1 に答える 1

Related

Reference