文字列を保存しようとしていますが、Pythonでnltkを使用してトークン化した後、トークン化した後(リストが作成されます)、リスト内の文字列が表示されない理由がわかりません。
コードは次のとおりです。
#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']
リストの内容を定期的に見たいだけです。
事前にThx
Python 2 を使用しています。接頭辞のない引用符は、文字列ではなくバイトを表します (違いがわからない場合は、この をお読みください)。これが修正された Python 3 に切り替えるか、すべての文字列にプレフィックスを付けて文字列を出力します ( Python 2.x では異なる を表示するのではなく)。u
repr
>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου
弦が見えます。端末のエンコード設定により、文字はエスケープ シーケンスで表されます。入力を受け入れ、出力を UTF-8 で表示するように端末を構成します。