正規表現でドイツ語のウムラウトを照合できないことに驚いています。私はいくつかのアプローチを試みましたが、そのほとんどはロケールの設定に関係していましたが、今のところ役に立ちません。
locale.setlocale(locale.LC_ALL, 'de_DE.UTF-8')
re.findall(r'\w+', 'abc def g\xfci jkl', re.L)
re.findall(r'\w+', 'abc def g\xc3\xbci jkl', re.L)
re.findall(r'\w+', 'abc def güi jkl', re.L)
re.findall(r'\w+', u'abc def güi jkl', re.L)
これらのバージョンのいずれも、ウムラウト-u (ü) と\w+
. また、re.L
フラグを削除したり、パターン文字列にプレフィックスを付けたりu
(ユニコードにするため)しても役に立ちませんでした。
何か案は?フラグはどのようにre.L
正しく使用されていますか?