私は Stanford POS Tagger を (初めて) 使用しています。英語は正しくタグ付けされていますが、モデル パラメーターを変更しても (簡体字) 中国語は認識されないようです。私は何かを見落としましたか?
ここから最新のフルバージョンをダウンロードして解凍しました: http://nlp.stanford.edu/software/tagger.shtml
次に、「sample-input.txt」にサンプル テキストを入力しました。
</p>
それから私は単に実行します
./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt
予想される出力は、各単語に品詞のタグを付けることですが、代わりに、テキストの文字列全体を 1 つの単語として認識します。
タガー models/chinese-distim.tagger からのデフォルト プロパティのロード
models/chinese-distim.tagger から POS タガー モデルを読み取り中 ... 完了 [3.5 秒]。
這是一個測試的句子。這是另一個句子。#NR
毎秒 30.30 ワードで 1 ワードをタグ付けしました。
助けていただければ幸いです。