python - 「for line in...」の結果、UnicodeDecodeError: 'utf-8' コーデックはバイトをデコードできません

Question

ここに私のコードがあります、

for line in open('u.item'):
# Read each line

このコードを実行するたびに、次のエラーが発生します。

UnicodeDecodeError: 'utf-8' コーデックは位置 2892 のバイト 0xe9 をデコードできません: 継続バイトが無効です

これを解決して、open() に追加のパラメーターを追加しようとしました。コードは次のようになります。

for line in open('u.item', encoding='utf-8'):
# Read each line

しかし、再び同じエラーが発生します。じゃあどうすればいいの？

score 552 · Accepted Answer

Mark Ransom が示唆したように、私はその問題に適したエンコーディングを見つけました。エンコーディングはだっ"ISO-8859-1"たので、に置き換えるopen("u.item", encoding="utf-8")とopen('u.item', encoding = "ISO-8859-1")問題が解決します。

score 37 · Accepted Answer

ファイルには実際には UTF-8 でエンコードされたデータは含まれていません。他のエンコーディングが含まれています。そのエンコーディングが何であるかを把握し、それをopen呼び出しで使用します。

たとえば、Windows-1252 エンコーディングでは、は文字0xe9になりますé。

score 25 · Accepted Answer

Pandasを使用して読み取るには、これを試してください。

pd.read_csv('u.item', sep='|', names=m_cols, encoding='latin-1')

score 17 · Accepted Answer

これは機能します：

open('filename', encoding='latin-1')

または：

open('filename', encoding="ISO-8859-1")

score 2 · Accepted Answer

これは、Python 3 で CSV ファイルを変換する例です。

try:
    inputReader = csv.reader(open(argv[1], encoding='ISO-8859-1'), delimiter=',',quotechar='"')
except IOError:
    pass

score 2 · Accepted Answer

このデータセットを読んでいるときに、 Kaggleからダウンロードしたデータセットを使用していたところ、次のエラーがスローされました。

UnicodeDecodeError: 'utf-8' コーデックは位置 183 のバイト 0xf1 をデコードできません: 継続バイトが無効です

これが私がそれを修正した方法です。

import pandas as pd

pd.read_csv('top50.csv', encoding='ISO-8859-1')

score 2 · Accepted Answer

Notepad++でファイルを開き、[エンコード] または [エンコード] メニューを選択して、ANSI から UTF-8 またはISO 8859-1コードページを識別または変換します。

python - 「for line in...」の結果、UnicodeDecodeError: 'utf-8' コーデックはバイトをデコードできません

15 に答える 15

Related

Reference