私はこのコードを持っています
import chardet, re
content = "Бланк свидетельства о допуске."
print content
print chardet.detect(content)
content = re.sub(u"(?i)[^-0-9a-zа-яё«»\&\;\/\<\>\.,\s\(\)\*:!\?]", "", content)
print content
print chardet.detect(content)
そして出力
Бланк свидетельства о допуске.
{'confidence': 0.99, 'encoding': 'utf-8'}
� � .
{'confidence': 0.5, 'encoding': 'windows-1252'}
私は何を間違っていますか?後に uft-8 文字列を取得するにはどうすればよいre.sub()
ですか? (Python 2.7、# coding: utf-8
UTF-8 のファイル、IDE Pycharm)。
ありがとう。