python - Unicode ファイルの読み取り - Python3.2

Question

Python3.2 を使用していくつかのファイルを読み取ろうとしていますが、一部のファイルには Unicodeが含まれている場合と含まれていない場合があります。

私がしようとすると：

file = open(item_path + item, encoding="utf-8")
for line in file:
    print (repr(line))

エラーが発生します：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 13-16: ordinal not in range(128)

ここのドキュメントに従っています: http://docs.python.org/release/3.0.1/howto/unicode.html

Python がこのコードの任意の時点で ascii にエンコードしようとするのはなぜですか?

score 3 · Accepted Answer

問題はrepr(line)、Python 3 では Unicode 文字列も返すことです。上記の 128 文字は ASCII エスケープシーケンスに変換されません。

ascii(line)エスケープシーケンスを表示する場合は、代わりに使用します。

実際には、repr(line)は、ソースコードに配置された場合に同じ値を持つオブジェクトを生成する文字列を返すことが期待されています。このように、Python 3 の動作は、ソースファイルで ASCII エスケープシーケンスを使用して ASCII 文字を超える文字列を表現する必要がないため、問題ありません。最近では、UTF-8 やその他の Unicode エンコーディングを使用するのはごく自然なことです。真実は、Python 2 がそのような文字のエスケープシーケンスを生成したということです。

score 2 · Accepted Answer

あなたの出力エンコーディングは何ですか？への呼び出しを削除するとprint()、機能し始めますか?

UTF-8 以外のロケールを使用していると思われるため、Python はrepr(line)印刷の一部として ASCII としてエンコードしようとしています。

この問題を解決するには、文字列をエンコードしてバイト配列を出力するか、デフォルトのエンコードを文字列を処理できるものに設定する必要があります (UTF-8 が当然の選択です)。

python - Unicode ファイルの読み取り - Python3.2

2 に答える 2

Related

Reference