python - Python正規表現大文字ユニコード単語

Question

多くの言語で略語テキストを検索する必要があります。現在の正規表現は次のとおりです。

import regex as re
pattern = re.compile('(?:[\w]\.)+', re.UNICODE | re.MULTILINE | re.DOTALL | re.VERSION1)
pattern.findall("U.S.A. u.s.a.")

結果にusaは必要ありません。必要なのは大文字のテキストだけです。[AZ]は英語以外の言語では機能しません。

score 12 · Accepted Answer

それらを一致させるには、Unicode 文字プロパティを使用する必要があります。reは文字プロパティをサポートしていませんが、サポートregexしています。

>>> regex.findall(ur'\p{Lu}', u'ÜìÑ')
[u'\xdc', u'\xd1']

1 に答える 1