-1

re一部のテキストを検閲するためにPython のモジュールを使用しています。ASCII テキストと Unicode テキストの両方を検閲する必要があるためre、テキストが Unicode の場合は の Unicode フラグを設定する必要があります。テキストが Unicode かどうかを検出する方法はありますか?

4

3 に答える 3

2

ASCII is a subset of Unicode, you don't have to do anything -- unless you have reasons to suspect your text is neither ASCII not Unicode (eg Windows CP 1252 et altri), just go with Unicode by defaut.

于 2012-07-25T04:40:01.703 に答える
0

You can just use

 isinstance( s, unicode)

to see if the object is unicode. But if you have all your strings as encoded unicode, then you need to know the encoding. For email-processing applications that can be a nightmare. In the past, I have used chardet to that end.

于 2012-07-25T04:40:13.210 に答える
0

試しtext.decode('utf-8')てみて、エラーなしで成功した場合、テキストは UTF-8 でエンコードされた Unicode です (純粋な ASCII はそのサブセットです)。それ以外の場合、つまりコード ページの場合は、おそらく例外が発生します。

于 2012-07-25T04:41:07.293 に答える