一連のドキュメントがあり、各タプルに特定のドキュメントの日付と、特定の検索語がそのドキュメントに表示される回数が含まれるタプルのリストを返したいと思います。私のコード(以下)は機能しますが、遅く、私はn00bです。これをより速くする明白な方法はありますか?主に私がより良いコーディングを学ぶことができるように、そしてまた私がこのプロジェクトをより速く終わらせることができるように、どんな助けでも大いに感謝されるでしょう!
def searchText(searchword):
counts = []
corpus_root = 'some_dir'
wordlists = PlaintextCorpusReader(corpus_root, '.*')
for id in wordlists.fileids():
date = id[4:12]
month = date[-4:-2]
day = date[-2:]
year = date[:4]
raw = wordlists.raw(id)
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
count = text.count(searchword)
counts.append((month, day, year, count))
return counts