Unicode文字列で無効なxml1.0文字を検出するための正規表現があります。
bad_xml_chars = re.compile(u'[^\x09\x0A\x0D\u0020-\uD7FF\uE000-\uFFFD\U00010000-\U0010FFFF]', re.U)
Linux / python2.7では、これは完全に機能します。Windowsでは、次のことが発生します。
File "C:\Python27\lib\re.py", line 190, in compile
return _compile(pattern, flags)
File "C:\Python27\lib\re.py", line 242, in _compile
raise error, v # invalid expression
sre_constants.error: bad character range
これがWindowsでコンパイルされない理由はありますか?