分音記号を組み合わせた UTF8 文字列があります。\w
正規表現シーケンスと一致させたい。アクセントのある文字には一致しますが、分音記号を組み合わせたラテン文字には一致しません。
>>> re.match("a\w\w\wz", u"aoooz", re.UNICODE)
<_sre.SRE_Match object at 0xb7788f38>
>>> print u"ao\u00F3oz"
aoóoz
>>> re.match("a\w\w\wz", u"ao\u00F3oz", re.UNICODE)
<_sre.SRE_Match object at 0xb7788f38>
>>> re.match("a\w\w\wz", u"aoo\u0301oz", re.UNICODE)
>>> print u"aoo\u0301oz"
aóooz
(SO マークダウン プロセッサは、上記の発音区別記号の組み合わせに問題があるようですが、最後の行に ́ があります)
とにかく発音区別記号を組み合わせて一致させるものはあります\w
か? このテキストはファイル名からのものであるため、テキストを正規化したくありません。また、「ファイル名のユニコード正規化」全体をまだ実行する必要もありません。これは Python 2.5 です。