私は現在 re.findall を使用して、文字列内のハッシュタグの「#」文字の後の単語を検索して分離します。
hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)
str1 を検索し、すべてのハッシュタグを見つけます。これは機能しますが、次のようなアクセント付きの文字は考慮されませんáéíóúñü¿
。
これらの文字の 1 つが str1 にある場合、ハッシュタグはその前の文字まで保存されます。たとえば、#yogenfrüz
になります#yogenfr
。
次のようなハッシュタグを保存できるように、ドイツ語、オランダ語、フランス語、スペイン語に及ぶすべてのアクセント付き文字を説明できる必要があります。#yogenfrüz
どうすればこれを行うことができますか