私はこのmyfileを持っています(これを貼り付けました。問題のある関連データがコピー/貼り付けで生き残っていることを願っています)。私はそのファイルを読み込もうとします:
import codecs
codecs.open('myfile', 'r', 'utf-8').read()
しかし、これは次のようになります。
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe5 in position 7128: invalid continuation byte
ファイルを確認すると:
» file myfile
myfile: C source, ISO-8859 text
- そのようなファイル (ISO-8859) を Python で読み取るにはどうすればよいですか?
- 一般的に、ファイルがどのようにエンコードされているかを知るにはどうすればよいですか?
多くの場合、自分で生成したのではないファイル (システム ファイル、インターネットからダウンロードしたランダム ファイル、プロバイダーや顧客から提供されたランダム ファイルなど) を扱っています。使用しています。多文化環境 (ヨーロッパ) にいるため、これらのファイルがどのようにエンコードされているかを知ることは困難です。ほとんどの場合、ファイルを提供する人でさえ、選択したエディター/ツールによって舞台裏で発生している可能性があるエンコーディングについての手がかりがありません。ファイルごとに使用されているエンコーディングを確認するにはどうすればよいですか?