4

文字列を保存しようとしていますが、Pythonでnltkを使用してトークン化した後、トークン化した後(リストが作成されます)、リスト内の文字列が表示されない理由がわかりません。

コードは次のとおりです。

#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']

リストの内容を定期的に見たいだけです。

事前にThx

4

2 に答える 2

6

Python 2 を使用しています。接頭辞のない引用符は、文字列ではなくバイトを表します (違いがわからない場合は、この をお読みください)。これが修正された Python 3 に切り替えるか、すべての文字列にプレフィックスを付けて文字列を出力します ( Python 2.x では異なる を表示するのではなく)。urepr

>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου
于 2012-11-22T19:35:18.480 に答える
0

弦が見えます。端末のエンコード設定により、文字はエスケープ シーケンスで表されます。入力を受け入れ、出力を UTF-8 で表示するように端末を構成します。

于 2012-11-22T19:34:46.453 に答える