python - '\uFFFF' より上のすべての Unicode 文字に一致する正規表現

Question

UCS-4 文字を取得すると、Pygame と Pyglet の両方がクラッシュします。

exceptions.UnicodeError: '\uFFFF' より上の Unicode 文字が見つかりました。サポートされていません

これらすべての文字を正規表現でフィルタリングするにはどうすればよいですか?

score 1 · Accepted Answer

あなたの質問は正規表現を求めていますが、それは最も適切なツールではありません。ord(c) > 0xFFFF問題のある文字を検出するために、変数を使用して各文字を反復処理できます。

ただし、正規表現が必要な場合は、(python3) を試してください

import re
r1 = re.compile("[\U00010000-\U0010FFFF]")
m1 = r1.search( "Text\u00A0\U0001FFFF" )
print (m1.group())
print (m1.start())
print (m1.end())

Python2 の場合、文字列リテラルの前に "u" を追加するだけです (Unicode にするため)。

2 に答える 2