python - PYTHONでのギリシャ語エンコーディング

Question

文字列を保存しようとしていますが、Pythonでnltkを使用してトークン化した後、トークン化した後（リストが作成されます）、リスト内の文字列が表示されない理由がわかりません。

コードは次のとおりです。

#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']

リストの内容を定期的に見たいだけです。

事前にThx

score 6 · Accepted Answer

Python 2 を使用しています。接頭辞のない引用符は、文字列ではなくバイトを表します (違いがわからない場合は、このをお読みください)。これが修正された Python 3 に切り替えるか、すべての文字列にプレフィックスを付けて文字列を出力します ( Python 2.x では異なるを表示するのではなく)。urepr

>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου

score 0 · Accepted Answer

弦が見えます。端末のエンコード設定により、文字はエスケープシーケンスで表されます。入力を受け入れ、出力を UTF-8 で表示するように端末を構成します。

python - PYTHONでのギリシャ語エンコーディング

2 に答える 2

Related

Reference