tool I can use to determine the most common words...
... so something with reasonable accuracy is good enough.
最初に UNIX テキスト ツールを使用することをお勧めします。coursera自然言語処理講座 Word Tokenization Lesson から、Youtubeリンクはこちら. ここに簡単なチュートリアルがあります。
この目的のために、 tr、uniq、およびsortを使用します。以前に UNIX テキスト ツールを使用したことがある場合、これは完全なコマンドです。
tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
それ以外の場合、以下はすべての部分の説明です。
tr -sc 'A-Za-z' '\n' < filename.txt
このコマンドは filename.txt change every word を取得します。基本的に、すべての単語の後に新しい行を追加します。
tr -sc 'A-Za-z' '\n' < *.txt
上記と同じですが、ディレクトリ内のすべての txt ファイル。
tr -sc 'A-Za-z' '\n' < *.txt | sort
コマンドを並べ替えます。最初はたくさんの「a」単語から始まります。
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c
並べ替え結果を uniq コマンドにパイプしてカウントします。
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c | sort -n -r
コマンドをもう一度並べ替えて、最も使用されている、最も一般的な単語を表示します。
ここでの問題:「and」と「And」が 2 回カウントされる
tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
また
tr '[:upper:]' '[:lower:]' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
すべての単語を小文字に変更し、同じパイプをもう一度使用します。これにより、ファイル内で最も一般的な単語が取得されます。