python - Unicode 文字列内の非 ASCII 文字の検出

翻译自：https://stackoverflow.com/questions/16866261 2013-05-31T21:27:11.570

8907 次

テキストファイル (または Unicode 文字列) が与えられた場合、ASCII エンコーディングの範囲外の文字を検出する良い方法は何ですか? 各文字をに簡単に繰り返し渡すことができますがord()、それを行うためのより効率的でエレガントな、または慣用的な方法があるかどうか疑問に思います。

ここでの最終的な目標は、ASCII にエンコードできないデータ内の文字のリストをコンパイルすることです。

参考までに、私のコーパスのサイズは約 500MB / 1200 個のテキストファイルです。Win7 (64 ビット) で (コンパイル済みのバニラ) Python 3.3.1 を実行しています。

1 に答える 1