現在、ドキュメントのディレクトリ (与えられた例はヨハネの黙示録の各章) を取得し、それらを用語頻度ドキュメントに変換する小さなスクリプトを作成する必要があります。これまでのところ、私は持っています:
foreach file ($1/*)
java Stemmer $file | tr " " "\n" | tr "[:punct:]" "\n" | egrep -v ^$ | sort |
egrep -x -v -f stopwords
そのため、現在、各ファイルを調べて、Porter ステマーを実行し、すべての句読点と余分なスペースと黒い線を取り除き、それらを並べ替え、すべてのストップワードを削除しています。私の質問は、出力が
apple
boy
boy
cat
cat
cat
dog
に
apple 1
boy 2
cat 3
dog 1