CSV ファイルからトレーニング セットを読み込んで、Textblob で分類子をトレーニングしようとしています。CSV のテキストは UTF-8 である必要があります。コードを実行しようとすると:
# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
cl = NaiveBayesClassifier(fp, format="csv")
次のエラーが表示されます。
UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31: invalid start byte
ただし、Texblob は UTF-8 を使用して CSV をエンコードしているようです (ここにある CSV オープナーのソース コードを調べました)。
だから、なぜこのエラーが発生するのか本当に理解できません。これを回避するための助けはありますか?