単語が1行ずつあるファイルから単語の頻度を計算したいと思います。ファイルは非常に大きいので、これが問題になる可能性があります(この例では300k行をカウントします)。
私はこのコマンドを実行します:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
問題は、それが私に小さなバグを与えることです:それは同じ単語を異なるものと見なします。
たとえば、最初のエントリは次のとおりです。
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
あなたがgiochi
見ることができるように2回繰り返されます。
ファイルの下部ではさらに悪化し、次のようになります。
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
すべての言葉のために。
私は何が間違っているのですか?