12

ASCII テキスト ファイルがあります。1 つ以上の Ubuntu コマンドを使用して、そのファイルからすべての「単語」のリストを生成したいと考えています。単語は、区切り文字間の英数字シーケンスとして定義されます。区切り文字はデフォルトで空白ですが、句読点などの他の文字も試してみたいと思います。つまり、区切り文字セットを指定できるようにしたいのです。一意の単語セットのみを作成するにはどうすればよいですか? 少なくとも N 文字の長さの単語だけをリストしたい場合はどうすればよいでしょうか?

4

3 に答える 3

5

これが私の単語の雲のようなチェーンです

cat myfile | grep -o -E '\w+' | tr '[A-Z]' '[a-z]' | sort | uniq -c | sort -nr

tex ファイルがある場合は、次のように置き換えcatますdetex

detex myfile | grep -o -E '\w+' | tr '[A-Z]' '[a-z]' | sort | uniq -c | sort -nr

于 2018-12-14T15:48:09.397 に答える