linux - Stanford POS Tagger が中国語のテキストにタグを付けない

Question

私は Stanford POS Tagger を (初めて) 使用しています。英語は正しくタグ付けされていますが、モデルパラメーターを変更しても (簡体字) 中国語は認識されないようです。私は何かを見落としましたか？

ここから最新のフルバージョンをダウンロードして解凍しました: http://nlp.stanford.edu/software/tagger.shtml

次に、「sample-input.txt」にサンプルテキストを入力しました。

</p>

それから私は単に実行します

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

予想される出力は、各単語に品詞のタグを付けることですが、代わりに、テキストの文字列全体を 1 つの単語として認識します。

タガー models/chinese-distim.tagger からのデフォルトプロパティのロード

models/chinese-distim.tagger から POS タガーモデルを読み取り中 ... 完了 [3.5 秒]。

這是一個測試的句子。這是另一個句子。#NR

毎秒 30.30 ワードで 1 ワードをタグ付けしました。

助けていただければ幸いです。

score 6 · Accepted Answer

この pos tagger にはトークン化/セグメンテーションが含まれていないことに最終的に気付きました。タガーに渡す前に、単語をスペースで区切る必要があるようです。中国語の最大エントロピーワードセグメンテーションに関心のある方は、別のパッケージをこちらから入手できます。

http://nlp.stanford.edu/software/segmenter.shtml

みんな、ありがとう。

linux - Stanford POS Tagger が中国語のテキストにタグを付けない

1 に答える 1

Related

Reference