0

Python を使用して、外国語のテキストを含むバイグラムのリストを見つけています: アラビア語、ロシア語、ペルシア語

結果は次のように表示されます。 x88\xdb\x8c')

このスクリプトは何と呼ばれ、アラビア語/ロシア語/ペルシア語に変換するにはどうすればよいですか?

NLTKを使用してMAC OSの端末でこれを実行しています。

4

1 に答える 1

2

これは、utf-8 でエンコードされたテキストを含むバイト文字列です。

In [5]: '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')
Out[5]: u'\u0645\u0646\u0627\u0638\u0631\u0647'

In [6]: print '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')         
مناظره
于 2013-03-05T17:13:20.243 に答える