このサイトには、Python での Unicode 処理エラーについて、文字通り数十、おそらく数百もの質問があります。これが私が話していることの例です:
UnicodeDecodeError: 'ascii' コーデックは位置 2310 のバイト 0xe2 をデコードできません: 序数が範囲外です (128)
非常に多くの質問は、OP が問題のあるコンテンツを削除したいだけであることを示しています。彼らが受け取る応答は一様に、コーデック、文字セット、およびこの 1 つの基本的な質問に対応していないあらゆる種類の事柄に関する巨大なジャンボでいっぱいです。
「Unicode を含むテキスト ファイルを処理しようとしています。これが何であるかは気にすることはできません。解決しようとしている問題のコンテキストではノイズにすぎません。」
だから、無数の JSON でエンコードされたツイートを含むファイルがあります。これらの特殊文字にはまったく興味がありません。行から削除してください。
fh = open('file-full-of-unicode.txt')
for line in fh:
print zap_unicode(line)
「line」という変数が与えられた場合、含まれている可能性のあるユニコードを除いて単純に出力するにはどうすればよいですか?
そこで、誤解されないようにいくつかの異なる方法で質問を繰り返しました-ユニコードは、私がやろうとしていることの文脈ではジャンクです。それを無害なものに変換するか、単に完全に削除したい. これはどのように最も簡単に達成できますか?