1

現在、ドキュメントのディレクトリ (与えられた例はヨハネの黙示録の各章) を取得し、それらを用語頻度ドキュメントに変換する小さなスクリプトを作成する必要があります。これまでのところ、私は持っています:

foreach file ($1/*)
   java Stemmer $file | tr " " "\n" | tr "[:punct:]" "\n" | egrep -v ^$ | sort |
   egrep -x -v -f stopwords

そのため、現在、各ファイルを調べて、Porter ステマーを実行し、すべての句読点と余分なスペースと黒い線を取り除き、それらを並べ替え、すべてのストップワードを削除しています。私の質問は、出力が

apple  
boy  
boy  
cat  
cat  
cat  
dog  

apple 1  
boy 2  
cat 3  
dog 1
4

2 に答える 2

2
awk '{a[$0]++}END{for(x in a)print x,a[x]}' input|sort

期待どおりに正確に出力されます。(あなたの例では)、単語のアルファベータをソートしておいてください。

于 2013-04-23T10:02:49.637 に答える