python - Pythonで正規表現のアクセント文字を考慮する方法は?

Question

私は現在 re.findall を使用して、文字列内のハッシュタグの「#」文字の後の単語を検索して分離します。

hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)

str1 を検索し、すべてのハッシュタグを見つけます。これは機能しますが、次のようなアクセント付きの文字は考慮されませんáéíóúñü¿。

これらの文字の 1 つが str1 にある場合、ハッシュタグはその前の文字まで保存されます。たとえば、#yogenfrüzになります#yogenfr。

次のようなハッシュタグを保存できるように、ドイツ語、オランダ語、フランス語、スペイン語に及ぶすべてのアクセント付き文字を説明できる必要があります。#yogenfrüz

どうすればこれを行うことができますか

score 29 · Accepted Answer

次のことを試してください。

hashtags = re.findall(r'#(\w+)', str1, re.UNICODE)

EDIT Martijn Pieters からの以下の有用なコメントを確認してください。

3 に答える 3