python - アイリスデータセットとのエンコードの不一致

翻译自：https://stackoverflow.com/questions/52124608 2018-09-01T03:24:57.757

141 次

データセットを iris.data としてダウンロードした後、名前を iris.data.txt に変更しました。SOで報告されたこのエラーを回避しようとしていました:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

読んだ後、私はこれを試しました：

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

これによりエラーは部分的に解決されましたが、一部の行はまだガベージでした。

次に、Sublimeで開いて、utf-8エンコーディングで保存してから、dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

しかし、これでも問題は解決しません。Mac OS で Python 3 を実行しています。データを直接読み取ることができる可能性があるのは何ですか?

[編集]: データ型の読み取り: Web アーカイブ。Spyder では、ファイルは iris.data.webarchive として表示されます

試してみるとdataset = pd.read_csv('iris.data.webarchive', header=None)、次のトレースバックが表示されます。

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

私が試してみるとdataset = pd.read_csv('iris.data', header=None)、それはFileNotFoundError: File b'iris.data' does not exist

python - アイリス データセットとのエンコードの不一致