小さな問題があります。私はPythonでこのコードを持っています(より大きなスクリプトから取られました):
for line in open(trainFile):
for token,tag in [x.rsplit('/',1) for x in line.split()]:
tokenTagCount[(token,tag)] += 1
tags[tag] += 1
listOfTags.append(tag)
trainFile にはデンマーク語の単語とタグが含まれていますが、それは問題ではありません。問題は次のとおりです。ファイルがデンマーク語であるため、# -*- coding: cp1252 -*-
Python で文字を適切に表示するには、最初の行にインクルードする必要があります。ただし、私の for ループ ("for line in open...") は、コーディングに関するこの最初の行を無視し、実際のデータが始まる trainFile の 2 行目から実行を開始する必要があります。どうすればいいですか?
ありがとう!