「a..,z」、「A,..、Z」、「スペース」、「.」の記号を見つけなければなりません。一部のデータでは「、」。
私はコードを試しました:
fh = codecs.open("mydata.txt", encoding = "utf-8")
text = fh.read()
fh1 = unicode(text)
dic_freq_signs = dict(Counter(fh1.split()))
All_freq_signs = dic_freq_signs.items()
List_signs = dic_freq_signs.keys()
List_freq_signs = dic_freq_signs.values()
しかし、それは私が探しているものではなく、すべての兆候を取得しますか? 誰でも助けることができますか?
(そしてそれはユニコードでなければなりません)