24

私は現在 re.findall を使用して、文字列内のハッシュタグの「#」文字の後の単語を検索して分離します。

hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)

str1 を検索し、すべてのハッシュタグを見つけます。これは機能しますが、次のようなアクセント付きの文字は考慮されませんáéíóúñü¿

これらの文字の 1 つが str1 にある場合、ハッシュタグはその前の文字まで保存されます。たとえば、#yogenfrüzになります#yogenfr

次のようなハッシュタグを保存できるように、ドイツ語、オランダ語、フランス語、スペイン語に及ぶすべてのアクセント付き文字を説明できる必要があります。#yogenfrüz

どうすればこれを行うことができますか

4

3 に答える 3

29

次のことを試してください。

hashtags = re.findall(r'#(\w+)', str1, re.UNICODE)

正規表現101のデモ

EDIT Martijn Pieters からの以下の有用なコメントを確認してください。

于 2013-09-06T17:52:15.537 に答える