5

私は Stanford POS Tagger を (初めて) 使用しています。英語は正しくタグ付けされていますが、モデル パラメーターを変更しても (簡体字) 中国語は認識されないようです。私は何かを見落としましたか?

ここから最新のフルバージョンをダウンロードして解凍しました: http://nlp.stanford.edu/software/tagger.shtml

次に、「sample-input.txt」にサンプル テキストを入力しました。

</p>

それから私は単に実行します

./stanford-postagger.sh models/chinese-distim.tagger sample-input.txt

予想される出力は、各単語に品詞のタグを付けることですが、代わりに、テキストの文字列全体を 1 つの単語として認識します。

タガー models/chinese-distim.tagger からのデフォルト プロパティのロード

models/chinese-distim.tagger から POS タガー モデルを読み取り中 ... 完了 [3.5 秒]。

這是一個測試的句子。這是另一個句子。#NR

毎秒 30.30 ワードで 1 ワードをタグ付けしました。

助けていただければ幸いです。

4

1 に答える 1

6

この pos tagger にはトークン化/セグメンテーションが含まれていないことに最終的に気付きました。タガーに渡す前に、単語をスペースで区切る必要があるようです。中国語の最大エントロピー ワード セグメンテーションに関心のある方は、別のパッケージをこちらから入手できます。

http://nlp.stanford.edu/software/segmenter.shtml

みんな、ありがとう。

于 2013-04-18T21:14:31.310 に答える