多くの言語で略語テキストを検索する必要があります。現在の正規表現は次のとおりです。
import regex as re
pattern = re.compile('(?:[\w]\.)+', re.UNICODE | re.MULTILINE | re.DOTALL | re.VERSION1)
pattern.findall("U.S.A. u.s.a.")
結果にusaは必要ありません。必要なのは大文字のテキストだけです。[AZ]は英語以外の言語では機能しません。
それらを一致させるには、Unicode 文字プロパティを使用する必要があります。re
は文字プロパティをサポートしていませんが、サポートregex
しています。
>>> regex.findall(ur'\p{Lu}', u'ÜìÑ')
[u'\xdc', u'\xd1']