python - 正規表現は国際文字が好きではありません

Question

重複の可能性：
Python正規表現のUnicode文字の一致

使用する

re.findall(r'\w+', ip)

Fältskog返品時Fおよびltskog。文字列とUnicodeの両方で試しましたが、同じです。結果

score 5 · Accepted Answer

適切なフラグを設定する必要があります（この場合、意味UNICODEを伝えるため）：re\w

re.findall(r'\w+', ip, re.UNICODE)

# EDIT

Python 2.7.3 (default, Aug  1 2012, 05:16:07) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> re.findall(r"\w+", u"Fältskog", re.UNICODE)
[u'F\xe4ltskog']
>>>

score 0 · Accepted Answer

re.findall（r'[åäöÅÄÖ\w] +'、ip）

より視覚的にしたい場合は、これを行うこともできます。

python - 正規表現は国際文字が好きではありません

2 に答える 2

Related

Reference