私は持っています:
from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
これはNLTKマニュアルから直接です。次にやりたいのはvocab
、OEDのような完全な英語の単語のセットと比較し、違いを抽出することです。つまり、OEDに含まれていない、またはおそらく含まれないであろうFinnegansWakeの単語のセットです。私は数学志向の人というよりは口頭の人なので、その方法はまだわかりません。マニュアルでは、実際にはやりたくないことについて詳しく説明しすぎています。ただし、コードはあと1行か2行だと思います。