大きなタブで区切られたファイルの 1 つの列の頻度を要約する必要があります。
例は次のとおりです。
abbot achievement 1
abbot acknowledge 2
abbot acknowledge 2
abbot acknowledge 3
abbot acquaintance 1
abbot acquire 2
abbot acquisition 2
abbot acre 1
abbot acre 4
abbot act 1
abbot act 4
abbot act 3
abbot act 8
abbot act 5
abbot act 7
abbot act 8
abbot action 2
abbot active 4
最終結果と同じである列1と2の頻度を合計したい:
abbot achievement 1
abbot acknowledge 7
abbot acquaintance 1
abbot acquire 2
abbot acquisition 2
abbot acre 5
abbot act 36
abbot action 2
abbot active 4
ここで同様の質問をして、次のコマンドを使用しました。ユニーク -c | awk ' { print $2 "\t" $3 "\t" $1*$4 } '`
ただし、これでは問題は解決しません。たとえば、並べ替え関数は、同一の 3 つの列すべてを合計するだけで、3 つの列すべてから合計された度数を持つ新しい列 1 を追加する結果が生成されるためです。
私の望む結果を生み出すこのコマンドへの変更を誰かが提案できますか? または、この問題を解決するためのより良い方法を提案しますか?