NLTK を使用してバイグラムとトライグラムのコロケーションを取得する方法を知っており、それらを自分のコーパスに適用しています。コードは以下です。
私の唯一の問題は、PMI 値でバーグラムを出力する方法ですか? NLTK ドキュメントを何度も検索します。何かが足りないか、そこにないかのどちらかです。
import nltk
from nltk.collocations import *
myFile = open("large.txt", 'r').read()
myList = myFile.split()
myCorpus = nltk.Text(myList)
trigram_measures = nltk.collocations.TrigramAssocMeasures()
finder = TrigramCollocationFinder.from_words((myCorpus))
finder.apply_freq_filter(3)
print finder.nbest(trigram_measures.pmi, 500000)