Stanford POS-tagger を使用しようとしています。英語のテキストを解析して (実際には pos タグだけで十分です)、結果を conll 形式で出力できるかどうかを尋ねたいと思います。そのようなオプションはありますか?
Stanford pos tagger の完全な 3.2.0 バージョンを使用しています
どうもありがとう
Stanford POS-tagger を使用しようとしています。英語のテキストを解析して (実際には pos タグだけで十分です)、結果を conll 形式で出力できるかどうかを尋ねたいと思います。そのようなオプションはありますか?
Stanford pos tagger の完全な 3.2.0 バージョンを使用しています
どうもありがとう
CONLL フォーマットに関しては、CONLL2000 チャンキング タスク フォーマット自体を意味していると思います。
He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O
CONLL チャンキング タスク形式には 3 つの列があります。
token
(つまり単語)POS
鬼ごっこBIO
チャンク/フレーズタグの (begin, inside, outside)残念ながら、スタンフォードの MaxEnt タガーを使用すると、との情報しか得られず、チャンク情報はありませんtoken
POS
BIO
。
java -cp stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/left3words-wsj-0-18.tagger -textFile short.txt -outputFormat tsv 2> /dev/null
上記のコマンドを使用すると、Stanford POS tagger はすでにタブ区切りの形式を提供していますが、3 番目の列がありません ( http://nlp.stanford.edu/software/pos-tagger-faq.shtmlを参照)。
He PRP
reckons VBZ
the DT
...
列を取得するには、次のBIO
いずれかが必要です。
チャンカー/パーサーのリストについては、 http: //www-nlp.stanford.edu/links/statnlp.html を参照してください。スタンフォード ツールを使い続けたい場合は、スタンフォード パーサーをお勧めしますが、ブラケット付きの解析形式が得られます。 CONLL2000 形式にするには、後処理を行う必要があります。http://nlp.stanford.edu/software/lex-parser.shtml を参照してください。