python - nltk python でトライグラムの conditional_frequency_distribution と conditional_probability_distribution を計算する方法

Question

言語モデルの条件付き確率分布を計算したいのですが、生成できない条件付き頻度分布が必要なため、計算できません。これは私のコードです:

# -*- coding: utf-8 -*-

import io
import nltk
from nltk.util import ngrams
from nltk.tokenize import sent_tokenize
from preprocessor import utf8_to_ascii

with io.open("mypet.txt",'r',encoding='utf8') as utf_file:
    file_content = utf_file.read()

ascii_content = utf8_to_ascii(file_content)
sentence_tokenize_list = sent_tokenize(ascii_content)

all_trigrams = []

for sentence in sentence_tokenize_list:
    sentence = sentence.rstrip('.!?')
    tokens = nltk.re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*", sentence)
    trigrams = ngrams(tokens, 3,pad_left=True,pad_right=True,left_pad_symbol='<s>', right_pad_symbol="</s>")
    all_trigrams.extend(trigrams)

conditional_frequency_distribution = nltk.ConditionalFreqDist(all_trigrams)
conditional_probability_distribution = nltk.ConditionalProbDist(conditional_frequency_distribution, nltk.MLEProbDist)

for trigram in all_trigrams:
    print "{0}: {1}".format(conditional_probability_distribution[trigram[0]].prob(trigram[1]), trigram)

しかし、私はこのエラーが発生しています:

line 23, in <module>
ValueError: too many values to unpack

これは、utf-8 文字を処理している私の preprocessor.py ファイルです。

# -*- coding: utf-8 -*-

import json


def utf8_to_ascii(utf8_text):
    with open("utf_to_ascii.json") as data_file:
        data = json.load(data_file)
    utf_table = data["chars"]
    for key, value in utf_table.items():
        utf8_text = utf8_text.replace(key, value)
    return utf8_text.encode('ascii')

これは、utf-8 char を ascii char に置き換えるために使用した utf_to_ascii.json ファイルです。

{
 "chars": {
          "“":"",
          "”":"",
          "’":"'",
          "—":"-",
          "–":"-"
 }
}

NLTKのトリグラムの条件付き頻度分布を計算するにはどうすればよいですか?

score 0 · Accepted Answer

私はついにそれを行う方法を見つけました。上記のコードでは、トライグラムをバイグラムに変換しています。たとえば、私は ('I', 'am', 'going')それをに変換してい(('I', 'am'), 'going')ます。したがって、最初のタプルが再び 2 つの単語のタプルである 2 つのタプルを持つバイグラムです。これを達成するために、このコードの数行を変更しました。

trigrams_as_bigrams = []
for sentence in sentence_tokenize_list:
....
....
trigrams = ngrams(tokens, 3,pad_left=True,pad_right=True,left_pad_symbol='<s>', right_pad_symbol="</s>")
trigrams_as_bigrams.extend([((t[0],t[1]), t[2]) for t in trigrams])
....
....

残りのコードは以前と同じです。私にとってはうまくいきます。ご尽力いただきありがとうございます。

python - nltk python でトライグラムの conditional_frequency_distribution と conditional_probability_distribution を計算する方法

1 に答える 1

Related

Reference