1

Pythonでアラビア語を処理するためにこのコードを書きました

 import codecs
 file = codecs.open("C:\Python27\CCA_raw_utf8.txt","r","utf-8")
 text= file.read()
 ####################################

 print "\n "," --------------------------------------------"

 text=text[1:]
 words=text.split()

 for w in words:
    if w == unicode ("الشيخ","utf-8"):
    print w

しかし、それは機能せず、エラーが発生します:

if w == unicode ("الشيخ","utf-8"):
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc7 in position 0: invalid    continuation byte "

私のプログラムがこの結果を出すのはなぜですか?どうすれば修正できますか??

4

3 に答える 3

1

Unicode 文字をサポートする端末を使用する必要がある場合があります。コードunicode("الشيخ","utf-8")は osx で動作します。

IDLE またはその他の IDE/ターミナルを使用してみてください。

于 2013-10-24T04:18:38.927 に答える