私はコーパス内の単語のリストを数えることに取り組んでおり、単語のリストの確率を確認しています。
それぞれの単語の頻度を数え、EXCELを使って合計してきましたが、本当に時間がかかります。私のリストの単語数は数千です。
単語リストの頻度の総数を合計して、単語の確率を確認したいだけです。
genres = ['C:/A1.txt','C:/A2.txt','C:/A3.txt']
modals = ['can', 'could', 'may', 'might', 'must', 'will']
cfd = nltk.ConditionalFreqDist(
(genre, word)
for genre in genres
for word in modals)
cfd.tabulate(conditions=genres, samples=modals)
助けてください。私はこの問題を克服するために2日を費やしてきました。
よろしくお願いします。