UTF-8 で保存されたウルドゥー語文書内の同じ単語の数を数えようとしています。
たとえば、スペースで区切られた3つのまったく同じ単語を含むドキュメントがあります
خُداوند خُداوند خُداوند
次のコードを使用してファイルを読み取って、単語を数えようとしました。
file_obj = codecs.open(path,encoding="utf-8")
lst = repr(file_obj.readline()).split(" ")
word = lst[0]
count =0
for w in lst:
if word == w:
count += 1
print count
しかし、取得している count の値は 1 ですが、3 を取得する必要があります。
Unicode 文字列を比較するにはどうすればよいですか?