python - 平文ファイルの一意の用語を大文字と小文字を区別せずにカウントするにはどうすればよいですか？

Question

これは、一般的なUNIXライクなシステム（Python、Perl、awk、標準のUNIX utils {sort、uniq}など）で使用できる可能性が高い高水準言語であればどれでもかまいません。うまくいけば、2MBのテキストファイルの一意の用語の総数を報告するのに十分な速さです。

これは迅速な健全性チェックにのみ必要なので、適切に設計する必要はありません。

ケースに敏感であることを忘れないでください。

どうもありがとうございました。

補足：Pythonを使用する場合は、バージョン3のみのコードを使用しないでください。私が実行しているシステムには2.4.4しかありません。

score 6 · Accepted Answer

Perlの場合：

my %words; 
while (<>) { 
    map { $words{lc $_} = 1 } split /\s/); 
} 
print scalar keys %words, "\n";

score 5 · Accepted Answer

5

bash / UNIXコマンドの使用：

sed -e 's/[[:space:]]\+/\n/g' $FILE | sort -fu | wc -l

于 2009-05-27T07:34:19.510 に答える

score 4 · Accepted Answer

Python 2.4の場合（おそらく以前のシステムでも機能します）：

#! /usr/bin/python2.4
import sys
h = set()
for line in sys.stdin.xreadlines():
  for term in line.split():
    h.add(term)
print len(h)

Perlの場合：

$ perl -ne 'for (split(" ", $_)) { $H{$_} = 1 } END { print scalar(keys%H), "\n" }' <file.txt

score 4 · Accepted Answer

標準のUnixユーティリティのみを使用する：

< somefile tr 'A-Z[:blank:][:punct:]' 'a-z\n' | sort | uniq -c

Gnuのないシステムを使用している場合は、「」を、単語の一部ではなく、単語の区切り文字と見なすすべての空白文字と句読文字のリストtrに置き換える必要があります。たとえば、「」 "。[:blank:][:punct:]\t.,;

出力を頻度の降順で並べ替える場合は| sort -r -n、この末尾に「」を追加できます。

これにより、無関係な数の空白トークンも生成されることに注意してください。これが気になるtr場合は、sedを使用して空の行を除外できます。

score 4 · Accepted Answer

これがPerlのワンライナーです：

perl -lne '$h{lc $_}++ for split /[\s.,]+/; END{print scalar keys %h}' file.txt

または、各アイテムの数を一覧表示するには：

perl -lne '$h{lc $_}++ for split /[\s.,]+/; END{printf "%-12s %d\n", $_, $h{$_} for sort keys %h}' file.txt

これにより、句読点を処理して「foo」を処理しようとします。は「foo」でカウントされ、「do n't」は単一の単語として扱われますが、必要に応じて正規表現を調整できます。

score 3 · Accepted Answer

単純に（52ストローク）：

perl -nE'@w{map lc,split/\W+/}=();END{say 0+keys%w}'

古いperlバージョン（55ストローク）の場合：

perl -lne'@w{map lc,split/\W+/}=();END{print 0+keys%w}'

score 3 · Accepted Answer

Pythonの短いバージョン：

print len(set(w.lower() for w in open('filename.dat').read().split()))

ファイル全体をメモリに読み込み、空白を使用して単語に分割し、各単語を小文字に変換し、小文字の単語から（一意の）セットを作成し、それらをカウントして出力を出力します。

ワンライナーを使用することも可能です：

python -c "print len(set(w.lower() for w in open('filename.dat').read().split()))"

score 0 · Accepted Answer

これがawkワンライナーです。

$ gawk -v RS='[[:space:]]' 'NF&&!a[toupper($0)]++{i++}END{print i}' somefile

8 に答える 8