これにより、テキスト内の単語の頻度がわかります。
fullWords = re.findall(r'\w+', allText)
d = defaultdict(int)
for word in fullWords :
d[word] += 1
finalFreq = sorted(d.iteritems(), key = operator.itemgetter(1), reverse=True)
self.response.out.write(finalFreq)
これはまた、「the」「an」「a」などの役に立たない言葉を私に与えます
私の質問は、これらの一般的な単語をすべて削除できる Python で利用可能なストップ ワード ライブラリはありますか? これをGoogle App Engineで実行したい