Pythonでアラビア語を処理するためにこのコードを書きました
import codecs
file = codecs.open("C:\Python27\CCA_raw_utf8.txt","r","utf-8")
text= file.read()
####################################
print "\n "," --------------------------------------------"
text=text[1:]
words=text.split()
for w in words:
if w == unicode ("الشيخ","utf-8"):
print w
しかし、それは機能せず、エラーが発生します:
if w == unicode ("الشيخ","utf-8"):
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc7 in position 0: invalid continuation byte "
私のプログラムがこの結果を出すのはなぜですか?どうすれば修正できますか??