python - 特定の頻度でバイグラムの数を取得する最も効率的な方法

翻译自：https://stackoverflow.com/questions/40164951 2016-10-20T21:35:43.650

460 次

特定の周波数 ( ) を持つバイグラムのリストを取得しようとしていますi。

私はそれを行うための2つの方法を思いついた. 最初にバイグラムのリストを作成してから、次のメソッドbg1を使用します。nltk.FreqDist

import nltk
from nltk import FreqDist
from nltk import bigrams

#setup data
from nltk.book import text1

#keep only alpha words / remove punctuation
alphlist = [w for w in list(text1) if w.isalpha()]
#create bigrams list
bg1 = bigrams(alphlist)

#create freqdist object
fdist1 = nltk.FreqDist(bg1)

アプローチ 1 では、most_common最初に並べ替えを使用します。

for obj in fdist1.most_common():
  if obj[1] == i:
    print(obj)

2 つの解析fdist1に直接アプローチします。

for obj in fdist1:
  if fdist1[obj] == i:
    print(obj, fdist1[obj])

どちらのアプローチが優れているか、またその理由は?

python - 特定の頻度でバイグラムの数を取得する最も効率的な方法

0 に答える 0

Related

Reference