1

CSV ファイルからトレーニング セットを読み込んで、Textblob で分類子をトレーニングしようとしています。CSV のテキストは UTF-8 である必要があります。コードを実行しようとすると:

# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
   cl = NaiveBayesClassifier(fp, format="csv")

次のエラーが表示されます。

UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31:    invalid start byte

ただし、Texblob は UTF-8 を使用して CSV をエンコードしているようです (ここにある CSV オープナーのソース コードを調べました)

だから、なぜこのエラーが発生するのか本当に理解できません。これを回避するための助けはありますか?

4

1 に答える 1

0

Pythonファイルの先頭に次の行が必要です

 # -*- coding: utf-8 -*-
于 2015-03-10T22:39:54.533 に答える