私は Python と NLTK にかなり慣れていませんが、質問がありました。自作のコーパスから7文字以上の単語だけを抽出するものを書いていました。しかし、それはすべての単語を抽出することが判明しました...誰かが私が間違ったことを知っていますか?
loc="C:\Users\Dell\Desktop\CORPUS"
Corpus= CategorizedPlaintextCorpusReader(loc,'(?!\.svn).*\.txt, cat_pattern=r '(Shakespeare|Milton)/.*)
def long_words(corpus)
for cat in corpus.categories():
fileids=corpus.fileids(categories=cat)
words=corpus.words(fileids)
long_tokens=[]
words2=set(words)
if len(words2) >=7:
long_tokens.append(words2)
Print long_tokens
みんな、ありがとう!