3

ヘブライ語の印刷に問題があります。指定されたテキスト(ヘブライ語)の単語数をカウントするために、カウンターモジュールを使用しています。カウンターは実際に単語を数え、私が使用しているため言語を識別します# -*- coding: utf-8 -*-

問題は、カウンターを印刷すると、奇妙なシンボルが表示されることです。(私は日食を使用しています)コードと印刷物は次のとおりです。

# -*- coding: utf-8 -*-
import string
from collections import Counter
class classifier:
def __init__(self,filename):
    self.myFile = open(filename)
    self.cnt = Counter()

def generateList(self):
    exclude = set(string.punctuation)
    for lines in self.myFile:
        for word in lines.split():
            if word not in exclude:
                nWord = ""
                for letter in word:
                    if letter in exclude:
                        letter = ""
                        nWord += letter
                    else:
                        nWord += letter
                self.cnt[nWord]+=1
    print self.cnt

印刷物:

Counter({'\xd7\x97\xd7\x94': 465, '\xd7\x96\xd7\x95': 432, '\xd7\xa1\xd7\x92\xd7\x95\xd7\xa8': 421, '\xd7\x94\xd7\x92\xd7\x91': 413})

単語を正しい方法で印刷する方法について何か考えはありますか?

4

1 に答える 1