unix - 今期の頻度カウンターパイプラインを終了する Unix ユーティリティ

Question

現在、ドキュメントのディレクトリ (与えられた例はヨハネの黙示録の各章) を取得し、それらを用語頻度ドキュメントに変換する小さなスクリプトを作成する必要があります。これまでのところ、私は持っています：

foreach file ($1/*)
   java Stemmer $file | tr " " "\n" | tr "[:punct:]" "\n" | egrep -v ^$ | sort |
   egrep -x -v -f stopwords

そのため、現在、各ファイルを調べて、Porter ステマーを実行し、すべての句読点と余分なスペースと黒い線を取り除き、それらを並べ替え、すべてのストップワードを削除しています。私の質問は、出力が

apple  
boy  
boy  
cat  
cat  
cat  
dog

に

apple 1  
boy 2  
cat 3  
dog 1

score 2 · Accepted Answer

awk '{a[$0]++}END{for(x in a)print x,a[x]}' input|sort

期待どおりに正確に出力されます。（あなたの例では）、単語のアルファベータをソートしておいてください。

2 に答える 2