11
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

これらは、文章に POS タグを割り当てたいときに発生するエラーです。ファイルから文章を読みます。最初は (いくつかの文では) このエラーは発生しません (つまり、トークン化できません) が、いくつかの文を読んだ後、このエラーが発生します。私は POS tagger の v2.0 (つまり 2009) を使用しており、モデルはleft3wordsです。

4

4 に答える 4

8

私はYuvalに同意します-文字エンコードの問題ですが、最も一般的なケースは、タガーがUTF-8でファイルを読み取ろうとしているときに、ファイルがISO-8859-1などのシングルバイトエンコードである場合です。ウィキペディアのU+FFFDの説明を参照してください。

于 2011-03-10T04:39:13.807 に答える
2

これは私にはエンコードの問題のように見えます。違反の文章を投稿できますか?ドキュメントでこれを見つけることができませんでしたが、ファイルが UTF-8 エンコーディングであるかどうかを確認してみます。

于 2011-03-09T09:06:54.593 に答える
1

私もこの問題に遭遇しました。文字がトークン化可能かどうかをテストする 1 つの方法は、Character.isIdentifierIgnorable()が失敗するかどうかを確認することです。トークン化できない文字は返されますtrueが、トークン化できる文字はすべて返されfalseます。

于 2014-07-11T21:55:24.823 に答える