ドイツ語用の perl トークナイザーを使用しています。一部のファイルではトークナイザーは正常に動作しますが、現在、次のエラーに直面しています。
perl tokenizer.perl -l de < ~/Desktop/me.txt > ~/Desktop/me.txt.tok
Tokenizer v3
Language: de
utf8 "\xFF" does not map to Unicode at tokenizer.perl line 44, <STDIN> line 1.
Malformed UTF-8 character (byte 0xff) in pattern match (m//) at tokenizer.perl line 45, <STDIN> line 1.
Malformed UTF-8 character (byte 0xff) in pattern match (m//) at tokenizer.perl line 45, <STDIN> line 1.
Malformed UTF-8 character (fatal) at tokenizer.perl line 64, <STDIN> line 1.
何かご意見は?
前もって感謝します。
負。