0

私はアラビア語の感情分析を行っています。python /nltk とドリーム パイ シェルを使用しています。この問題は、トークン化の機能を適用すると発生します。これらの単語を表示するにはどうすればよいですか?

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']
4

1 に答える 1

1

トークンを印刷すると、リストが印刷され\x...、バイトコード表現になります。アラビア語のフォームを印刷する場合は、リストをループしてトークンを1つずつ印刷します。

>>> import nltk
>>> sentence = "مصادمات عنيفه في"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['\xd9\x85\xd8\xb5\xd8\xa7\xd8\xaf\xd9\x85\xd8\xa7\xd8\xaa', '\xd8\xb9\xd9\x86\xd9\x8a\xd9\x81\xd9\x87', '\xd9\x81\xd9\x8a']
>>> for i in tokens:
...     print i
... 
مصادمات
عنيفه
في
于 2013-03-07T13:29:26.210 に答える