すべてのコンテンツ ワードを頻度の高い順に表示するスクリプトを作成する必要があります。最も頻繁に使用される 10 個のコンテンツ ワードが必要です。したがって、コーパスの最も頻繁に使用される 10 個のワードのリストを作成する必要があるだけでなく、コンテンツ ワード (および句読点など) を除外する必要もあります。私がこれまでに持っているものは次のとおりです
fileids=corpus.fileids ()
text=corpus.words(fileids)
wlist=[]
ftable=nltk.FreqDist (text)
wlist.append(ftable.keys () )
これにより、すべての単語が頻度の高い順に並べられた非常にきれいなリストが得られますが、関数の単語を除外するにはどうすればよいでしょうか?
ありがとうございました。