python - Python 正規表現の Unicode テキストで使用する単語境界

Question

一部のユニコードテキストと一致させるために、正規表現で単語境界を使用したいと考えています。Unicode 文字は、次のように Python 正規表現の単語境界として検出されます。

>>> re.search(r"\by\b","üyü")
<_sre.SRE_Match object at 0x02819E58>

>>> re.search(r"\by\b","ğyğ")
<_sre.SRE_Match object at 0x028250C8>

>>> re.search(r"\by\b","uyu")
>>>

単語境界記号が Unicode 文字と一致しないようにするにはどうすればよいですか?

score 5 · Accepted Answer

次の方法で使用できます。

re.search(r'(?u)\by\b', 'üyü')

フラグに慣れるために、次のことを試してみてください: (?iLmsux)

Core Python Applications Programming 3rd edition をよく読んでください。正規表現に関する素晴らしい章があります。

python - Python 正規表現の Unicode テキストで使用する単語境界

3 に答える 3

Related

Reference