テキスト ファイル (または Unicode 文字列) が与えられた場合、ASCII エンコーディングの範囲外の文字を検出する良い方法は何ですか? 各文字を に簡単に繰り返し渡すことができますがord()
、それを行うためのより効率的でエレガントな、または慣用的な方法があるかどうか疑問に思います。
ここでの最終的な目標は、ASCII にエンコードできないデータ内の文字のリストをコンパイルすることです。
参考までに、私のコーパスのサイズは約 500MB / 1200 個のテキスト ファイルです。Win7 (64 ビット) で (コンパイル済みのバニラ) Python 3.3.1 を実行しています。