2 つのドキュメントがあります。最初のドキュメントは、次のように作成された辞書である .txt ドキュメントです。
Box OB
Table OB
Tiger AN
Lion AN
2 番目のドキュメントは、長いテキストが入った .txt ファイルです。このようなものです。
箱入りです。その箱の中にライオンとトラがいます。
辞書にある単語がテキストに何回出現するかをリストしたいと思います。
このような種類:
Box: 2
Lion: 1
Tiger: 1
これは私がしたことです:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import codecs
file = codecs.open("MYtext.txt",'r','utf-8')
text = file.readlines()
line_list = []
for line in text:
line.rstrip('\n')
line_list.append(line)
d = {}
import nltk
with open("MYdict.txt",) as mydict:
for line in mydict:
(key, val) = line.split()
dictionary = dict(line.strip().split(None, 1) for line in mydict)
line_counter = 0
for line in line_list:
line_counter = line_counter + 1
for word in line.split():
if word in line_list in dictionary.keys():
line_list = dictionary[word]
line_list.append(line_counter)
dictionary[word] = line_list
else:
line_list = []
line_list.append(line_counter)
dictionary[word] = line_list
for key in sorted(dictionary.keys()):
print key, len(dictionary[key])
このエラーが発生しています
$ /var/folders/3h/w3_12zfs7hs6zcrlnpk8gdg40000gn/T/Cleanup\ At\ Startup/test\ 44-405955317.432.py.command ; exit;
Traceback (most recent call last):
File "/private/var/folders/3h/w3_12zfs7hs6zcrlnpk8gdg40000gn/T/Cleanup At Startup/test 44-405955317.367.py", line 33, in <module>
for key in sorted(dictionary.keys()):
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 1: ordinal not in range(128)
logout
[Process completed]
助けてください。私はこれが初めてです。私は言語学者であり、プログラマーではありません。