java - Java でのスタンフォード POS タガーの使用

Question

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

これらは、文章に POS タグを割り当てたいときに発生するエラーです。ファイルから文章を読みます。最初は (いくつかの文では) このエラーは発生しません (つまり、トークン化できません) が、いくつかの文を読んだ後、このエラーが発生します。私は POS tagger の v2.0 (つまり 2009) を使用しており、モデルはleft3wordsです。

score 8 · Accepted Answer

私はYuvalに同意します-文字エンコードの問題ですが、最も一般的なケースは、タガーがUTF-8でファイルを読み取ろうとしているときに、ファイルがISO-8859-1などのシングルバイトエンコードである場合です。ウィキペディアのU+FFFDの説明を参照してください。

score 2 · Accepted Answer

これは私にはエンコードの問題のように見えます。違反の文章を投稿できますか？ドキュメントでこれを見つけることができませんでしたが、ファイルが UTF-8 エンコーディングであるかどうかを確認してみます。

score 1 · Accepted Answer

私もこの問題に遭遇しました。文字がトークン化可能かどうかをテストする 1 つの方法は、Character.isIdentifierIgnorable()が失敗するかどうかを確認することです。トークン化できない文字は返されますtrueが、トークン化できる文字はすべて返されfalseます。

java - Java でのスタンフォード POS タガーの使用

4 に答える 4

Related

Reference