日本語テキストの構文解析を行う MeCab というプログラムを使用しようとしています。私が抱えている問題は、バイト文字列を返し、それを印刷しようとすると、ほとんどすべての文字に疑問符が表示されることです。ただし、使用しようとすると.decode
、エラーがスローされます。これが私のコードです:
#!/usr/bin/python
# -*- coding:utf-8 -*-
import MeCab
tagger = MeCab.Tagger("-Owakati")
text = 'MeCabで遊んでみよう!'
print text
result = tagger.parse(text)
print result
result = unicode(result, 'utf-8')
print result
これは私の出力です:
MeCabで遊んでみよう!
MeCab �� �� ��んで�� �� ��う!
Traceback (most recent call last):
File "test.py", line 12, in <module>
result = unicode(result, 'utf-8')
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 6-7: invalid continuation byte
------------------
(program exited with code: 1)
Press return to continue
また、私の端末は日本語の文字を正しく表示できます。たとえば、print '日本語'
完全に正常に動作します。
何か案は?