NLTK python2.6 でテキスト コーパスを読み取ることができます。
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids():
num_chars = len(gutenberg.raw(fileid))
num_words = len(gutenberg.words(fileid))
num_sents = len(gutenberg.sents(fileid))
num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))
print int(num_chars/num_words), int(num_words/num_sents), int(num_words/num_vocab), fileid
ここで、num_letters(whole_text, ['a', 'bb', 'ccc']) のような、単語や文ごとの文字の平均出現回数を見つけたいと思います。予想される出力は次のとおりです。
a = n11/n12、bb = n21/n22、ccc = n31/n32
ここで、n11 = 単語内での出現、n12 = 文内での出現。