外国語のリストがあるとしましょう:
- イリクワ
- アリクワ
- ニリフンディシャ
- アナフンディシャ
- ツナソマ
- ツリソマ
この単語のリスト内で、単語に共通する長さ 4 以上の部分文字列を特定したいと考えています。たとえば、「kuwa」、「fundisha」、および「soma」という単語はすべてこのカテゴリに分類されます。
次に、周波数分析を行うと、次のようになります。
cnt = Counter()
for lines in list:
cnt[words]
print cnt.most_common(2000)
これらの部分文字列がリスト全体に表示される回数をカウントするようにしたい...次の最終出力が次のようになるように: print cnt.most_common(3) は次のようになります。
- くわ - 2
- フンディシャ - 2
- 相馬-2
- イリクワ 1 ...etc
ただし、これを行う方法については完全に途方に暮れています。何か案は?