Python で非 ASCII コード char を処理するのは本当に混乱します。誰でも説明できますか?
プレーン テキスト ファイルを読み取って、アルファベット以外のすべての文字をスペースに置き換えようとしています。
私はキャラクターのリストを持っています:
ignorelist = ('!', '-', '_', '(', ')', ',', '.', ':', ';', '"', '\'', '?', '#', '@', '$', '^', '&', '*', '+', '=', '{', '}', '[', ']', '\\', '|', '<', '>', '/', u'—')
取得したトークンごとに、そのトークン内の文字をスペースに置き換えて呼び出します
for punc in ignorelist:
token = token.replace(punc, ' ')
の末尾に非ASCIIコード文字があることに注意してignorelist
ください:u'—'
コードがその文字に遭遇するたびに、クラッシュして次のように言います。
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position
ファイルの先頭に追加してエンコーディングを宣言しようとしました# -*- coding: utf-8 -*-
が、まだ機能していません。誰かが理由を知っていますか?ありがとう!